阅读文献：“Improving Language Understanding by Generative Pre-Training”（GPT模型）

最新推荐文章于 2024-09-10 15:56:27 发布

小千不爱内卷

最新推荐文章于 2024-09-10 15:56:27 发布

阅读量468

点赞数

分类专栏：精读论文系列文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/no1xiaoqianqian/article/details/127080319

版权

精读论文系列专栏收录该内容

8 篇文章 1 订阅

订阅专栏

阅读文献：“Improving Language Understanding by Generative Pre-Training”

Introduction

从原始文本中有效学习的能力对于降低有监督学习是极为重要的。

从无标记文本中提取相比于词级别的信息更多的信息主要有两个困难：

找不到一个合适的损失函数，不同的任务可能需要不同的损失函数。
对于如何最有效地将这些学习到的表征转移到目标任务上，目前还没有达成共识。有的是变换模型架构，有的是使用复杂的学习方案等等。

本文提出了一个半监督的学习方法，包括无监督的预训练和有监督的微调。目标是学习一个全面的特征，以至于只要进行较小的更改就能应用于各种任务中。

这个模型（不是专门为某个任务训练的）在12个任务中有9个都优于专门训练的模型。

Related Work

半监督学习：近几年已经有人证明了在大量无标签的语料上训练的词向量有效地提升了各种各样的任务的表现。这种方法主要是捕获词级的信息，然而本文主要捕获更高级的预料信息。

无监督的预训练：无监督的预训练的目标是为了找到一个好的初始化的权重。本文主要做的工作就是与训练一个语言模型，然后再使用有监督地微调。LSTM模型的限制了预测能力，相反，Transformer模型运行捕获更大范围的语言结构。

辅助训练目标：无监督的预训练学习了与目标任务相关的几个语言方面。

Framework

训练包含两步：第一步是在大的文本语料库上训练一个语言模型。第二部是微调操作。

Unsupervised pre-training

给一个语料库中的token序列U={ $u_1,\dots,u_n$ }，使用一个标准的语言模型目标最大化这个可能性：
$L_i(U)=\sum_ilogP(u_i|u_{i-k},\dots,u_{i-1};\theta)$
k是文本窗口大小，条件概率P被使用一个带有参数 $\theta$ 的神经网络建模。（每次拿出来K个词语，然后用这k个词语预测下一个词语是啥）。也就是给定K个词，给定模型，然后预测下一个词语是啥。

为什么加log？log相加，等于内部数据相乘，也就是概率相乘，这样能够获得整个文本的联合概率。

本实验用了一个多层Transformer解码器（Transformer的解码器使用的是掩码注意力机制，只看到这个词之前的词，所以只能使用解码器）。这个模型应用了一个多头自注意力的操作在输入的文本token上，然后进行positon-wise feedforward层去产生一个目标标记的输出。
$h_o=UW_e+W_p$

$h_l=TransformerBlock(h_{l-1})\forall i\in [i,n]$

$P(u)=softmax(h_nW_e^T)$

假设要预测第u个词，那么先把前面k个词拿出来作为U，然后进行一个投影（Word2Vec），然后加上位置信息得到 $h_0$ ，然后做n层的Transformer块。然后再做一个投影加softmax。

和Bert的区别：GPT是根据前面的词语进行预测，Bert是根据前面和后面的词语预测。GPT的难度更大，但是天花板更高。

Supervised fine-tuning

假设C为一个有标签的数据集，每一条数据包含一个输入token的序列（一句话）： $x^1,\dots,x^m$ 和一个标签y。输入通过预训练模型去获得最终的transformer块的 $h_l^m$ ，然后是一个带有参数 $W_y$ 的线性输出层，去预测y：
$P(y|x^1,\dots,x^m)=softmax(h_l^mW_y)$
目标是让下面的函数最大化：
$L_2(C)=\sum_{(x,y)}logP(y|x^1,\dots,x^m)$
将语言模型作为微调的目标有助于性能提升、加快收敛速度。