剖析NLP历史，看chatGPT的发展

stark_summer

已于 2023-03-13 11:21:29 修改

阅读量6.4k

点赞数

分类专栏： NLP 文章标签：自然语言处理 chatgpt 人工智能

于 2023-03-12 19:57:21 首次发布

本文链接：https://blog.csdn.net/stark_summer/article/details/129479791

版权

1、NLP历史演进

1.1 NLP有监督范式

NLP里的有监督任务的范式，可以归纳成如下的样子。

输入是字词序列，中间一步关键的是语义表征，有了语义表征之后，然后交给下游的模型学习。所以预训练技术的发展，都是在围绕怎么得到一个好的语义表征（representation）的这一层次，逐渐改进的。

语义特征计算分为三个阶段，分别是

一、特征工程阶段，以词袋模型为典型代表

二、浅层表征阶段，以word2vec为典型代表

三、深层表征阶段，以基于transformer的Bert为典型代表

这样分法，我有点不服气呢，那为啥有个阶段要搞词语义部分【如中文分词、词性标注、句法分析、语义parse】呢？这个阶段叫“中间任务”，主要是因为NLP技术发展不够高的一种体现，如早期的“机器翻译”比较困难，就把难题分而治之，分解为分词、词性标注、句法分析等各种中间阶段。

针对，这三个阶段，稍微展开下，后续有机会，在重点展开说下

1.2 词袋模型

统计每个维度在文档中次的数量，问题是语义局限于字面相同与否，如apple和苹果，在语义上是有强关联的，但在词袋模型就gg了。

1.3 词向量

词的表征具有聚类性质和线性特征，解决关键问题是语义表征，能将一句话进行向量化语义表征出来，但不能解决上下文语义，如play music和play football，同一个play没办法区分开是打球还是弹琴。

1.4 预训练语言模型

通过大量语料无监督训练，提取语义表征信息，然后用于下游任务微调，如完形填空、文本分类、QA问答等，最有代表性是bert，简直在18年后，横少天下，专治各种不服的。

注：从时间轴来看

在2016年前后：语义表征逐步升级网络深度，网络越复杂，能表征能力越强

在2018年后，语义表征更侧重语义理解，谁能更好理解语义内容，那效果会更好。

2、GPT历史演进

2.1 宏观：从GPT1/2到GPT3

基于文本预训练的GPT-1，GPT-2，GPT-3 三代模型都是采用的以Transformer为核心结构的模型，在网络模型层面不同的是模型的层数和词向量长度等超参。

2.2 GPT-1：基于 Transformer Decoder 预训练 + 微调 Finetune

Generative Pre-Training GPT，主要指 NLP 生成式的预训练模型。

训练模式分为2阶段：

第 1 阶段预训练：利用语言模型 LLM 进行预训练学习

第 2 阶微调：通过微调 Fine tuning 解决下游任务

2.3 GPT-2：舍弃微调，直接利用 zero-short learning

GPT-2 在 GPT-1 已有网络结构设计上使用了更大网络和更大数据集，并且在训练和预测过程中一次预测一个单词，以此来训练一个能够 zero-short learning 的语言模型。

针对小样本/零样本的 N-shot Learning 应运而生，分为如下三种：

1） Zero-shot Learning (零样本学习)：没有任何训练样本进行微调训练的情况下，让预训练语言模型完成特定任务；

就给出任务描述，那请给出prompt内容，注：这种零样本学习是比较有挑战的

2）One shot Learning (单样本学习)：在一个训练样本进行微调训练的情况下，预训练语言模型完成特定任务；

给出具体任务描述，并给出一个示例，那请给出prompt内容

3）Few-shot Learning (少样本或小样本学习)：在只有少量样本进行微调训练的情况下，预训练语言模型完成特定任务；

给出具体任务描述，并给出3个示例，那请给出prompt内容

2.4 GPT3：开启 NLP 新范式 prompt，实现小样本学习

初代GPT-3展示了三个重要能力：

语言生成：遵循提示词（prompt），然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。
上下文学习 (in-context learning): 遵循给定任务的几个示例，然后为新的测试用例生成解决方案。很重要的一点是，GPT-3虽然是个语言模型，但它的论文几乎没有谈到“语言建模” (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上，这才是 GPT-3的真正重点。
世界知识：包括事实性知识 (factual knowledge) 和常识 (commonsense)。
事实性：李白是诗人，司马迁撰写《史记》
常识：太阳从东边升起来，人有两条腿+一双手

这些能力来自于如下方面：

pretrain阶段：

3000亿单词的预料数据，预训练1750亿参数模型，模型是沿用了GPT-2的结构，但是在网络容量上做了很大的提升。其中5个不同的语料，分别是60%低质量的Common Crawl，22%高质量的WebText2，16%Books1和Books2、3%Wikipedia等。

通过如此大规模预训练后，可以得出上述能力是因为：

语言生成的能力来自于语言建模的训练目标 (language modeling)。
世界知识来自 3000 亿单词的训练语料库（多类别数据源）。
模型的 1750 亿参数是为了存储知识（知识密集型任务的性能与模型大小息息相关）。
上下文学习的能力来源及为什么上下文学习可以泛化，这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。此刻，我想还要强调下”In-context learning“，我们需要先理解meta-learning（元学习），对于一个少样本的任务来说，模型的初始化值非常重要，从一个好的初始化值作为起点，模型能够尽快收敛，使得到的结果非常快的逼近全局最优解。元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围，使得模型能够在有限的数据集上快速拟合，并获得不错的效果。

prompt阶段：

常规NLP任务：QA问答、sentence相似性、闭卷问答，模式解析，机器翻译等效果较好

其他领域任务：数学加法，文章生成，编写代码等比较惊艳

注：Prompt-Tuning的动机旨在解决目前传统Fine-tuning的两个痛点问题

降低语义差异（Bridge the gap

最低0.47元/天解锁文章

stark_summer

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
剖析NLP历史，看chatGPT的发展

NLP里的有监督任务的范式，可以归纳成如下的样子。输入是字词序列，中间一步关键的是语义表征，有了语义表征之后，然后交给下游的模型学习。所以预训练技术的发展，都是在围绕怎么得到一个好的语义表征（representation）的这一层次，逐渐改进的。语义特征计算分为三个阶段，分别是一、特征工程阶段，以词袋模型为典型代表二、浅层表征阶段，以word2vec为典型代表三、深层表征阶段，以基于transformer的Bert为典型代表。
复制链接

扫一扫

专栏目录