《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT

最新推荐文章于 2023-04-24 17:28:45 发布

然后就去远行吧

最新推荐文章于 2023-04-24 17:28:45 发布

阅读量563

点赞数

分类专栏： nlp论文学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/107758201

版权

nlp论文学习专栏收录该内容

14 篇文章 6 订阅

订阅专栏

《Improving Langugage Understanding by Generative Pre-Tranining》

作者：Alec Radford
单位：OpenAI
发表会议及时间：2018

1、GPT历史意义

提出了language model + pretraining的训练方式；
正式开始了pre-training + fintuning的预训练征程；

虽然GPT在nlp下游任务中表现没有bert模型好，但是在文本生成任务上表示出色；

2、无监督预训练——通过大量未标记语料学习网络的初始参数

给定无label的输入token序列： $u=\{u_1,...,u_n\}$

使用生成式语言模型来最大化概率对其训练，其损失函数为： $L_1(u)=\sum_ilog P(u_i|u_{i-k},...,u_{i-1},\theta)$

公式中的k为上文窗口， $\theta$ 为neural network的参数；

GPT使用的是Transformer的多层Decoder部分，其输入为词向量和词对应的位置向量： $h_0=UW_e+W_p$

原始 Transformer 采用正弦函数来产生位置向量，但这里采用模型来学习位置向量；同时注意GPT在使用Transformer的Decoder的时候把Decoder部分中的Encoder-Decoder的attention层删除了；

Transformer的Decoder部分使用6层layer，GPT使用的是12层layer的Decoder。因此其层与层之间的参数传递为： $h_l=transformer\_block(h_{l-1}),l\in[1,n]$

最后一层layer接一层softmax层，作为对下一个词的预测： $P(u)=softmax(h_nW_e^T)$

上面公式中的n为transformer的层数，l是第n层layer； $W_e$ 为词token的Embedding Matrix， $W_p$ 为位置信息的Position Embeding Matrix；

注意GPT中去掉了Transformer中Encoder与Decoder之间的注意力层；

在进行有监督的fine-tuning的时候，其模型和无监督类似，但是去掉了进行预测的softmax层，其12层的Decoder层依然保留进行微调；

3、Supervised Fine-Tuning

给定有label的输入tokens： $X=\{x_1,...,x_m\}$

为了在进行有监督预测的时候能获取输入的最大信息，在Encoder的最后一层的最后一个位置拼接一个softmax层进行输出预测label： $P(y|x^1,...,x^m)=softmax(h_l^mW_y)$

有监督微调模型的损失函数为： $L_2(C)=\sum_{(x,y)}log P(y|x^1,...,x^m)$

上面公式中的 $h_l^m$ 是预训练时获得的transformer的hidden输出， $W_y$ 是下游任务中的matrix参数；

在预训练的时候有一个损失函数 $L_1$ ，在微调阶段有另一个损失函数 $L_2$ ，在使用下游任务微调的时候，将有监督数据不仅训练下游任务，同时训练无监督的语言模型（论文通过实验发现，在微调任务中引入语言模型能够改善监督学习的泛化性能，同时也能加速监督学习的收敛速度），则得到其微调时的损失函数为： $L_3(C)=L_2(C)+\lambda L_1(C)$

公式中的 $\lambda$ 为设定的超参数；

注意，在GPT中，微调阶段BP的时候不仅调整参数矩阵 $W_y$ ，同时调整Transformer中的Decoder部分的参数，词token的参数矩阵 $W_e$ ；

在ELMO中只是调整下游任务的参数矩阵 $W_y$ ，但是其双向LSTM的参数和词嵌入token的参数在BP的时候是保持不变的；

ELMO和GPT的这种差别就是Feature-base和Fine-tuning的区别；

4、Task-specific input transformations

在这里插入图片描述

在nlp中有很多下游任务，比如文本蕴含任务、文本分类任务、文本相似度任务、问答任务等；这些任务的输入是有一定区别的，比如在文本分类中输入只有一句话，在文本相似度分析的时候输入为两句话，因此我们需要对输入进行相应的变形；

task-specific input transformations就是为了解决不同下游任务输入不同而提出的，其实这也相当于对输入进行预处理。如上图所示，在文本分类中，在输入句子的起始端添加起始标志符“Start”，在输入句子的结束端添加“Extract”。在文本蕴含任务中，输入为两个句子，在第一个句子的起始端添加起始标志符“Start”，在两个句子中间添加一个句子分隔符“Delim”，最后在第二个句子的结束端添加一个结束标志符“Extract”；

文本蕴含有一个很严格的先后顺序，前面的句子是后面句子的前提，后面的句子是假设，前提和假设是不能交换的。但是在文本相似度任务中句子的先后顺序是没有严格要求的，就如上图中的Similarity文本相似度的例子中，如果将句子1和句子2进行交换，其相似意义是不变的，因此在进行文本相似度计算的时候可以交换句子1和句子2。这样在文本蕴含和文本相似度任务中其输入虽然是两个句子，但是文本相似度中会有两种不同的输入，这样经过Transformer之后文本相似度任务会有两个不同的输出，在transformer之后将两个输出进行contact然后经过Linear进行输出预测；

在图中的Multiple Choice中的Context是由若干个句子组成的问题文本，任务目标是基于问题文本从N个Answer中选出最合适的Answer，因此基于N个Answer构建N个句子对，并将其输入到Transformer中进行训练，在输出端将N个输出结果拼接一个Linear层，注意这里和文本相似度任务不同，文本相似度任务中是将transformer进行拼接再输入到Linear层中，最后文本相似度任务中的输出仅为一个，而Multiple Choice的输出为N个，最后从N个输出中选择概率最大的Answer。

5、实验结果

5.1 模型结构

GPT模型使用12层、仅包含Transformer的Decoder部分的模型，其结构如下：

12个masked的self attention head，其隐向量为768维；
Feed Forward的输出为3072维；

5.2 GPT模型在不同任务上的表现

5.2.1 文本蕴含任务

自然语言推理任务natural language inference:NLI 也称作文本蕴含任务 textual entailment ，其目标是：给定一对句子，判定其关系是蕴含、矛盾、还是中立。这里评估了5个不同来源的数据集，包括图片标题SNLI、新闻文章RTE、维基百科文章 QNLI、科学考试SciTail、转录语音&通俗小说&政府报告 MNLI 。（下图中的5x表示集成5个模型）
在这里插入图片描述

5.2.2 问答和知识推理任务

问答和知识推理任务包含两个数据集（其中 9x 表示集成了 9 个模型）：

RACE 数据集：包含来自初中、高中考试的一些问答题；
Story Cloze 数据集：该任务从两个选项中选择一个来作为故事的正确结尾；

5.2.3 语义相似度任务

其中 mc 表示 Mathews 相关系数，acc 表示准确率，pc 表示皮尔逊系数；

语义相似度任务检测两个句子在语义上是否等价。这里采用了3个数据集：Microsoft Paraphrase corpus:MRPC 、Quora Question Pairs:QQP、Semantic Textual Similarity benchmark:STS-B；

在这里插入图片描述

5.3 模型结果实验结果

5.3.1 Decoder 层数

实验表明：迁移学习时 GPT 的每一层都对目标任务有帮助。下图为采用不同层数时，模型在 RACE 和 MultiNLI 任务上的表现。即：迁移学习时并不是使用 $\overrightarrow{\mathbf{h}}_{l}$ ，而是 $\overrightarrow{\mathbf{h}}_{k}, k=1,2,3, \cdots, l$ ；
在这里插入图片描述