ChatGPT的前世今生：预训练模型成长史

最新推荐文章于 2023-06-22 11:10:02 发布

Datawhale

最新推荐文章于 2023-06-22 11:10:02 发布

阅读量3.3k

点赞数

本文链接：https://blog.csdn.net/Datawhale/article/details/129787236

版权

Datawhale干货

作者：钱博文，中国移动云能力中心

前言

近年来，随着各大厂商的激烈角逐，预训练模型（The Pretrained Foundation Models ，PFMs）的发展可谓百花争鸣，谁都想在这场没有硝烟的战争中力压群雄，作为下游任务的基础，像BERT、GPT-3、MAE、DALLE-E和ChatGPT基于大规模数据训练，可为各种下游应用提供合理的参数初始化。这种迁移学习范式，让预训练模型以一种高傲的姿态在各种任务和应用中大放异彩。特别是最近大火ChatGPT，带着其独有的"思维”在各大领域乱杀，也将人工智能推向了新一轮高潮。本文也是从预训练模型成长的几个关键因素做了系统阐述，旨在带领大家一起见证预训练模型的蜕变历程。

1.简介

图 1：PFMs的历史和演变

目前PFMS已经在NLP、CV、GL这三个主要的AI领域得到了广泛的研究，如图一所示，通过在大型语料中学习通用的特征表示，再针对不同的下游任务进行微调，已经在文本分类、图像分类、对象检测、图形分类等任务中表现出色。特别是针对NLP领域，预训练模型有着独特的优势，它的训练数据可以来自任何没有标记的文本，得到的语言模型（Language Models，LM）可以捕获到文本中的长期依赖、层次结构等关联信息。早期的预训练是一种静态技术，例如NNLM[1]和Word2vec[2]，但静态方法难以适应不同的语义环境。因此，像BERT[3]、XLNET[4]这类的动态预训练技术应运而生。

PFMs能在nlp中盛行起来，得益于能它同时对单词的句法和语义表示进行建模，并根据不同的输入动态改变多义词的表示上下文。PFM能学习丰富的语法和语义推理知识，效果更好。表1是对近几年来NLP领域PFMs相关信息的汇总。其中，Transforms作为PFMs主流的模型架构,它使用了Attention机制，将序列中的任意两个位置之间的距离缩小为一个常量，在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好；其次它不是类似RNN的顺序结构，因此具有更好的并行性，符合现有的GPU框架，能够利用分布式GPU进行并行训练，提升模型训练效率。

表1：NLP领域的预训练模型

目前在NLP领域PFMs的学习方法主要分为监督学习、半监督学习、弱监督学习、自监督学习和强化学习这五种，同时根据预训练任务根据上述的的学习方法可分为五类：掩码语言建模（MLM）、去噪自动编码器（DAE）、替换令牌检测（RTD）、下一句预测（NSP）、句子顺序预测（SOP）。其中，MLM在输入序列中随机擦除一些单词，然后在预训练期间预测这些擦除的单词，典型的例子包括BERT 和SpanBERT[5]；DAE 用于向原始语料库添加噪声，并使用包含噪声的语料库重建原始输入，BART[6] 就是一个典型的例子；RTD 是一个判别任务，用于确定 LM 是否已替换当前令牌，这项任务在ELECTRA[7] 中引入；为了使模型理解两个句子之间的相关性并捕获句子级表示，引入了NSP任务。PFM 输入来自不同文档的两个句子，并检查句子的顺序是否正确，一个典型的例子是BERT；与NSP不同，SOP使用文档中的两个连续片段作为正样本，并使用两个片段的交换顺序作为负样本。PFM可以更好地模拟句子之间的相关性，例如ALBERT[8] 。

2.字表征

当前大规模的预训练模型在问答、机器阅读理解和自然语言推理中取得了比人类更好的性能，表明目前PFM的构建方法是实用的。现有的预训练语言模型根据字表征方法主要分为三个分支：（1）自回归语言模型，（2）上下文语言模型，（3）排列语言模型。其中单词预测方向和上下文信息是其中最重要的因素。

2.1 自回归语言模型

自回归语言模型基于前一个单词预测下一个可能的单词，或基于后续单词预测最后一个可能的单词。它被选为特征提取器，并从前一个单词中提取文本表示。因此，它在自然语言生成（Natural language generation，NLG）任务中具有更好的性能，例如文本摘要和机器翻译。对于一个序列，根据前一个词计算的给定单词的概率为前向LM，公式如下：

其中，是输入序列的长度。此外，双向LM（Bi-LM）也是基于自回归语言模型，以及从向前和向后方向提取的文本表示连接在一起模型架构设计方法。GPT[9]采用自监督预训练、监督微调和stacked Transformer [10] 作为其解码器。后续，OpenAI提出了GPT-2[11]，并将stacked Transformer层数增加到48层。参