nlp正样本太多_【GPT-3论文翻译】语言模型是小样本学习者(Few-Shot Learners)(施工中)...

摘要

最近的工作证明了使用大量文本进行预训练,然后对特定任务进行微调(fine tuning),可以在许多NLP任务和基准方面的得到巨大的提升。虽然在预训练过程中通常与任务无关,但该方法仍然需要针对特定任务的微调数据集。这样的微调数据集包含成千上万个示例。相比之下,人类通常只要通过几个示例或简单的指令来执行新的语言任务-当前的NLP系统在很大程度上仍难以做到这一点。

在这里,我们证明了规模更大的语言模型可以极大地提高无关任务和小样本(few-shot)的性能,有时甚至优于最新的基于微调的SOTA方法。具体来说,我们训练了GPT-3(一种具有1750亿个参数的自回归语言模型,参数量是以前的任何非稀疏语言模型的10倍),并在小样本(few-shot)设置下的测试中评估了它的性能。

对于所有任务,应用GPT-3无需进行任何梯度更新或微调,仅需要与模型文本交互为其指定任务和展示少量演示即可使其完成任务。 GPT-3在许多NLP数据集上均具有出色的性能,包括翻译,问答和完形填空,以及一些需要即时推理或适应特定领域的任务,例如单词解密(unscrambling words),在句子中使用新单词或执行3位数的算术运算。

同时,我们还识别了一些GPT-3的小样本学习仍然困难重重的数据数据集,以及一些数据集,GPT-3面临大型Web语料库中训练的方法论问题。

最后,我们发现GPT-3可以生成新闻文章的样本,人类评估员很难将其与人类撰写的文章区分开。我们将讨论这一发现以及GPT-3对社会的广泛影响。

1. 简介

近年来,预训练语言表示模型成为了NLP系统中的新趋势,并以越来越灵活且与任务无关的方式迁移并应用于下游任务。 最早是,使用词向量[MCCD13,PSM14]学习单层表示并将其送到特定任务的架构中;之后,具有多层表示和上下文状态的RNN被用来构建更好的语言表示[DL15, MBXS17, PNZtY18] (尽管仍然局限于任务特定的架构)。近期的一些工作,对预训练的递归或transformer语言模型[VSP+17]直接微调,从而完全不需要任务特定的架构。

如上所述的最后一类工作已在许多具有挑战性的NLP任务(例如阅读理解,问答,文本蕴含等)上取得了实质性进展,并且在新架构和算法的基础上继续发展[RSR+19,LOG+19,YDY+19,LCG+19]。 但是,此方法的主要局限性在于,尽管架构与任务无关,但仍需要特定任务的数据集并针对特定任务进行微调:要在目标任务上得到很好的性能,通常需要在一个有着成千上万个样本的特定数据集上微调。如此种种原因,我们希望消除此限制。

首先,从现实的角度出发,每项新任务都需要大量带标签的数据集,这限制了语言模型的适用场景。 许多有用的语言任务,包括纠正语法,生成抽象概念的示例到撰写短篇小说,很难收集大量的有监督的训练数据,尤其是当我们遇到每个新任务时,必须再重新收集数据。

其次,随着模型的表达能力和训练分布范围的缩小,模型利用训练数据中的虚假相关性的能力大大增长。 这会给预训练加微调模式的模型带来问题,在这种情况下,模型被设计得很大,可以在预训练期间吸收信息,但随后在非常狭窄的任务分布上进行微调。 例如,[HLW+20]观察到,较大的模型并不一定能概括出更好的分布外分布。 有证据表明,在该模式下实现的泛化效果可能很差,因为该模型过于针对训练分布,并且无法很好地泛化[YdC+19,MPL19]。 因此,微调模型在特定基准中的性能会夸大底层任务的实际性能,尽管名义上达到了人类的水平[GSL+18,NK19]。

第三,人类不需要大量的有监督数据即可学习大多数语言任务-简短的自然语言指令(例如“请告诉我这句话是描述快乐还是悲伤”)或屈指可数的几个例子(例如“这里有两个举止勇敢的人的例子;请举第三个举止勇敢的例子”)通常足以使一个人在能力范围内执行一项新任务。 除了指出我们当前的NLP技术的概念局限性之外,这种适应性还具有实际优势–它使得人类可以无缝地把不同任务和技能混合在一起或者在许多任务和技能之间切换,例如在长对话中完成加法。 为了使模型应用广泛,我们希望有一天我们的NLP系统也具有相同的灵活性和通用性。

34304270672ce562950de809f9a2e5c2.png
图1.1:语言模型元学习。 在无人监督的预训练期间,语言模型会学到广泛的技能和模式识别能力。 然后,它在推断时使用这些能力来快速适应或识别所需的任务。 我们使用术语“语境学习”来描述此过程的内部循环,该循环发生在每个序列的前向传递内。 该图中的序列并非旨在表示模型在预训练期间将看到的数据,而是为了表示有时在单个序列中嵌入了重复的子任务。

解决这些问题的一种可能的途径是元学习-对语言模型来说,这意味着该模型在训练时会学到广泛的技能和模式识别能力,然后在推理时使用这些能力快速适应或识别所需的任务(如图1.1所示)。 最近的工作[RWC+19]试图通过我们所谓的“语境学习”(in-context learning)来完成此任务,将文本输入预训练语言模型用于说明任务:该模型仅得到自然语言指令或任务的一些演示,就可以完成该任务。

尽管它给了我们一丝希望,但这种方法取得的效果仍然远不及微调-例如[RWC+19]在自然问题上仅达到4%,甚至其55 F1 CoQa结果现在也比SOTA落后35个点以上。 元学习显然需要实质性的改进,以便能够作为解决语言任务的实用方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值