GPT Understands, Too论文笔记

最新推荐文章于 2023-09-27 09:36:04 发布

爱嘤嘤的小猪仔

最新推荐文章于 2023-09-27 09:36:04 发布

阅读量437

点赞数 1

分类专栏： NLP 文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43199832/article/details/125323066

版权

NLP 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

摘要

GPT使用传统的fine-tuning无法在自然语言理解（Natural Language Understanding, NLU）任务上取得良好的效果。本文提出了一种新方法P-tuning（采用了可学习的连续prompt embedding），可以使得GPT的性能优于同等规模的BERT。同时，我们发现P-tuning也提升了BERT在小样本以及监督学习环境下的性能并且极大程度上降低了对prompt工程的需要。

介绍

根据训练的目标，预训练语言模型主要可以被分为三类：针对语言生成任务的单向语言模型，如GPT；针对NLU的双向语言模型，如BERT以及将两种范式相结合的混合语言模型，如XLNet和UniLM。长久以来，研究人员发现GPT范式的模型在fine-tuning后在NLU上的效果还是很差，因此他们认为GPT不适合NLU任务。
GPT-3的出现以及它通过手工设计prompt，在小样本学习以及零次学习中取得的优秀表现，暗示着大型的单一语言模型加上合适的手工prompt有可能使得GPT可以胜任NLU任务。然后手工设计表现好prompt非常困难并且需要大量的验证数据集。在许多情况下，prompt工程的有效可能是在测试集上过拟合导致的。除此之外，也很容易构建一个对抗prompt来破坏其结果。考虑到这些问题，最近的工作主要集中在自动搜寻离散的prompt，并且证明它们的有效性。然后，由于神经网络本身就是连续的，离散的prompt可能只是次优结果。
在这篇文章中，我们提出了一种全新的方法P-tuning，可以在连续空间中自动搜索prompt，从而弥补GPT在NLU任务中不足。P-tuning使用少数连续的自由参数作为prompt，并且将其当做预训练语言模型的输入。然后通过梯度下降的方式来优化连续prompt，用这种方法来代替离散prompt。
简单的P-tuning就可以给GPT在NLU任务上的性能带来巨大的提升。进一步的实验也证明了P-tuning同样适用于BERT。
本文的主要贡献是：
1）通过P-tuning，我们发现GPT可以在NLU任务上取得和BERT差不多甚至更优的效果，这可以加点程度上提升预训练语言模型的性能。这也表明GPT类架构在NLU任务上的潜力被低估了。
2） P-tuning在小样本和监督训练环境下，对GPT和BERT都有用。通过P-tuning，我们的方法取得了SOTA的性能。

动机

GPT-3以及DALL-E的巨大成功似乎暗示了巨型模型是提高机器智能的灵丹妙药。然后在这背后，有着不可忽视的挑战。
一个重要的点在于大模型的迁移能力很差。在那些百亿规模的模型上进行fine-tuning很难有效果。作为另一种解决策略，GPT-3和DALL-E使用手工设计的prompt来引导模型向下流任务的迁移。然而，手工设计的prompt进行搜索时，严重依赖于超大的验证集，并且其性能也非常不稳定。下图展示了一个例子，一个词的变化可以造成巨大的结果差异
在这里插入图片描述
为了应对这些挑战，近期的工作主要集中在通过挖掘训练语料库来自动搜索离散prompt，梯度搜索以及使用多种模型上，我们将这个问题转化为寻找可以被微分优化的连续prompt问题。

P-tuning

在这一节中，我们主要展示了P-tuning的实现。和离散prompt类似，P-tuning只对输入采取非侵入式的修改。然而，P-tuning用微分输出embedding取代了预训练语言模型的输入embedding

结构

给定一个预训练语言模型 $\mathcal{M}$ ，通过 $\mathcal{M}$ 中的embedding层 $\textbf{e}$ ，一系列离散输入token $\textbf{x}_{1:n}=\{x_0, x_1, ..., x_n\}$ 将被映射成输入embedding $\{\textbf{e}(x_0), \textbf{e}(x_1), \textbf{e}(x_n),\}$ 。在针对 $\textbf{x}$ 的特定场景中，我们经常使用一组目标token $\textbf{y}$ 的输出embedding进行下游任务的处理。比如，在预训练中， $\textbf{x}$ 指未被遮挡的token， $y$ 指[MASK]的部分，在句子分类中， $\textbf{x}$ 指的是句子token， $\textbf{y}$ 指的是[CLS]。

prompt $\textbf{p}$ 的作用是组织内容 $\textbf{x}$ ，目标 $\textbf{y}$ 以及它自身构成一个模板 $T$ 。举例说来，在一个预测一个国家的首都任务中，一个模板可能是“英国的首都是[MASK]”（如下图所示），在这里，“…的首都是”是prompt，“英国”是组织内容 $\textbf{x}$ ，“[MASK]”是目标。prompt非常灵活，我们甚至可以将它们插入到 $\textbf{x}$ 或者 $\textbf{y}$ 中。
在这里插入图片描述
记语言模型 $\mathcal{M}$ 的词汇为 $\mathcal{V}$ ，[ $P_i$ ]代表模板 $T$ 中的第 $i$ 个prompt。给定一个模板 $T=\{[P_{0:i}], \textbf{x},P[_{i+1:m}], \textbf{y}\}$ ，离散的prompt需要 $[P_i]\in\mathcal{V}$ ，并且将 $T$ 映射到：
$\{\textbf{e}([P_{0:i}]), \textbf{e}(x), \textbf{e}([P_{i+1:m}]), \textbf{e}(y)\}$
相反的，P-tuning将 $P_i]$ 当做假token并且将模板映射到
$\{h_0,...,h_i, \textbf{e}(x), h_{i+1},...,h_m, \textbf{e}(y)\}$
这里 $h_i(0\leqslant i <m)$ 是可训练的embedding张量。这使得我们可以找到超越 $\mathcal{M}$ 和原始词汇表 $\mathcal{V}$ 表达能力的连续prompt。最终，通过下游的损失函数 $\mathcal{L}$ ，我们可以微分优化 $h_i$ :
$\hat{h}_{0:m}=\underset{h}{argmin}\mathcal{L}(\mathcal{M(\textbf{x},\textbf{y})})$

优化

尽管训练连续prompt的想法是很直接的，它面临两个优化的挑战
1）离散： $\mathcal{M}$ 的原始单词embedding $e$ 在经过预训练之后已经非常离散了。如果对 $h$ 使用随机分布初始化，然后使用随机梯度下降(SGD)进行优化，这样模型的参数只能在小邻域内变化，优化器很容易陷入局部最优
2）关联：我们相信prompt embedding $h_i$ 的值应该彼此关联而不是独立，我们需要某种机制建立prompt embedding之间的联系。
鉴于这些挑战，在P-tuning中，我们使用prompt编码器将 $h_i$ 建模为一个序列，编码器由一个非常精简的神经网络构成，可以解决离散和关联的问题。在实践中，我们选择一个双向的LSTM，使用一个ReLU作为激活层的两层MLP来鼓励离散。从形式上说来，语言模型 $\mathcal{M}$ 的真实输入embedding $h_i'$ 变为
$h_i'=MLP([\mathop{h_i}\limits ^{\rightarrow}:\mathop{h_i}\limits ^{\leftarrow}])=MLP([LSTM(h_{0:i}):LSTM(h_{i:m})])$
虽然LSTM的使用确实给连续prompt的训练带来了额外的参数计算，LSTM比预训练模型的参数小了几个数量级。此外，在推理过程中，我么只需要输出embedding $h$ ，所以可以丢掉LSTM。

除此之外，我们也发现在SuperGLue benchmark中，加入一些anchor token有助于NLU任务。

实验

在这里插入图片描述

爱嘤嘤的小猪仔

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
GPT Understands, Too论文笔记

GPT使用传统的fine-tuning无法在自然语言理解（Natural Language Understanding, NLU）任务上取得良好的效果。本文提出了一种新方法P-tuning（采用了可学习的连续prompt embedding），可以使得GPT的性能优于同等规模的BERT。同时，我们发现P-tuning也提升了BERT在小样本以及监督学习环境下的性能并且极大程度上降低了对prompt工程的需要。根据训练的目标，预训练语言模型主要可以被分为三类：针对语言生成任务的单向语言模型，如GPT；
复制链接

扫一扫