人工智能论文GPT-3(4):2020.5 Language Models are Few-Shot Learners;结果;局限性;结果报告而非论文

3  结果Results

在图3.1中,我们展示了在第2节中描述的8个模型的训练曲线。对于这个图,我们还包括了6个额外的超小型模型,其参数少至10万个。如[KMH+20]所述,在有效利用训练计算时,语言建模性能遵循幂律power-law。在将这一趋势扩展两个数量级之后,我们观察到仅有轻微(如果有的话)偏离幂律。人们可能会担心这些交叉熵损失的改进仅来自于对我们训练语料库中虚假细节的建模。然而,我们将在以下部分中看到,交叉熵损失的改进导致了一系列自然语言任务中的一致性能提升。

接下来,我们在一系列数据集上评估了第2节中描述的8个模型(包括具有1750亿参数的GPT-3和7个较小的模型)。我们将数据集分为9个类别,代表大致相似的任务。

在第3.1节中,我们评估了传统的语言建模任务以及与语言建模类似的任务,如Cloze任务和句子/段落补全任务。

在第3.2节中,我们评估了“闭卷”问答任务:这些任务要求使用存储在模型参数中的信息来回答一般知识问题。

在第3.3节中,我们评估了模型在翻译不同语言(尤其是单次和少量样本)方面的能力。

在第3.4节中,我们评估了模型在Winograd Schema类似任务上的性能。

在第3.5节中,我们评估了涉及常识推理或问答的数据集。

在第3.6节中,我们评估了阅读理解任务,

在第3.7节中,我们评估了SuperGLUE基准套件,

在3.8节中,我们简要探讨了NLI。

最后,在第3.9节中,我们发明了一些额外任务,这些任务专门设计用于探测上下文学习能力——这些任务侧重于即时推理、适应技能或开放式的文本合成。我们对所有任务在少量样本、单次样本和零样本设置下进行了评估。

具体请参看:第10页~第29页。

4 测量和防止基准的记忆


由于我们的训练数据集来源于互联网,因此有可能我们的模型在一些基准测试集上进行了训练。准确检测来自互联网规模数据集的测试污染是一个新的研究领域,还没有形成公认的最佳实践。虽然不调查污染情况就训练大型模型是常见做法,但鉴于预训练数据集规模的不断扩大,我们认为这个问题越来越需要引起关注。

具体请参看:第30页~第33页。

5 局限性


GPT-3及其分析存在一些局限性。下面我们将描述其中一些局限性,并提出未来工作的方向。

首先,尽管GPT-3在定量和定性方面取得了显著改进,特别是与其前身GPT-2相比,它在文本合成和几个NLP任务中仍然存在明显的弱点。在文本合成方面,尽管整体质量很高,但GPT-3的样本有时仍会在文档级别出现语义重复,足够长的段落开始失去连贯性,出现自相矛盾的情况,偶尔还会包含不合逻辑的句子或段落。我们将发布一个包含500个未经筛选的无条件样本的集合,以更好地了解GPT-3在文本合成方面的局限性和优势。在离散语言任务领域,我们非正式地注意到,尽管GPT-3在某些测试该领域的数据集(如PIQA [BZB+19])上表现良好,但它似乎在“常识物理”方面遇到了特殊困难。具体来说,GPT-3在处理诸如“如果我把奶酪放进冰箱,它会融化吗?”这类问题时存在困难。定量而言,如第3节所述,GPT-3在上下文学习性能方面在我们的基准套件中存在一些明显的差距,特别是当在一些“比较”任务上进行单次甚至少量样本评估时,其表现仅略好于随机猜测,如确定两个词在句子中是否以相同方式使用,或一个句子是否暗示另一个句子(分别是WIC和ANLI),以及在部分阅读理解任务上的表现。考虑到GPT-3在许多其他任务上的强大少量样本性能,这一点尤其令人震惊。

GPT-3存在几个结构和算法上的局限性,这可能是导致上述一些问题的原因。我们专注于探索自回归语言模型中的上下文学习行为,因为对于这种模型类,采样和计算似然性都很直接。因此,我们的实验不包括任何双向架构或其他训练目标,如去噪。这与最近的大量文献存在明显的不同,这些文献已经记录了使用这些方法相比标准语言模型在微调性能上的改进[RSR+19]。因此,我们的设计决策以可能在一些实证上受益于双向性的任务上性能较差为代价。这可能包括填空任务、涉及回顾和比较两块内容的任务,或需要重读或仔细考虑长段落然后生成非常简短答案的任务。这可能是GPT-3在少数任务上少量样本性能落后的一个可能解释,如WIC(涉及比较单词在两个句子中的用法)、ANLI(涉及比较两个句子以查看一个句子是否暗示另一个句子)以及几个阅读理解任务(例如QuAC和RACE)。我们还根据过去的文献推测,大型双向模型在微调方面会比GPT-3更强。在GPT-3的规模上制作一个双向模型,以及/或尝试让双向模型适用于少量样本学习或零样本学习,是未来研究的一个有前途的方向,并可能有助于实现“两全其美”。

本文所描述的一般方法——无论是自回归模型还是双向模型,对任何类似语言模型(LM)的模型进行扩展——都存在一个更为根本的局限性,即它可能最终会遇到(或可能已经遇到)预训练目标的限制。我们目前的目标是对每个标记进行等权重的处理,缺乏预测什么最重要、什么不那么重要的概念。[RRS20]证明了根据兴趣实体定制预测的好处。此外,在使用自监督目标时,任务规范依赖于将所需任务转化为预测问题,而最终,有用的语言系统(例如虚拟助手)可能更适合被视为采取目标导向的行动,而不仅仅是进行预测。最后,大型预训练语言模型并未根植于其他经验领域,如视频或现实世界的物理交互,因此缺乏大量关于世界的上下文信息[BHT+20]。由于所有这些原因,单纯扩展自监督预测很可能会遇到限制,因此需要采用不同的方法进行补充。在这一方向上,未来可能的研究方向包括从人类那里学习目标函数[ZSW+19a]、使用强化学习进行微调,或添加额外的模态(如图像),以提供基础和对世界的更好模型[CLY+19]。

语言模型普遍存在的另一个局限性是预训练期间的样本效率低下。虽然GPT-3在测试时的样本效率方面向人类(单次或零次)迈进了一步,但它在预训练期间看到的文本仍然远超过一个人在其一生中看到的文本[Lin20]。提高预训练样本效率是未来工作的一个重要方向,这可能来自于对物理世界的根植以提供额外信息,或来自算法上的改进。

GPT-3中的少样本学习存在一个局限性,或至少存在不确定性,即关于少样本学习是否能在推理时“从头开始”学习新任务,还是仅仅识别和确定它在训练期间已学习的任务,存在模糊性。这些可能性存在于一个谱系上,从训练集中抽取的演示与测试时使用的演示完全来自同一分布,到识别相同任务但格式不同,再到适应一般任务(如问答)的特定风格,再到完全从头开始学习一项技能。GPT-3在这个谱系上的位置也可能因任务而异。合成任务,如单词混淆或定义无意义词汇,似乎特别有可能从头开始学习,而翻译显然必须在预训练期间学习,尽管可能使用的数据在组织和风格上与测试数据有很大不同。最终,甚至不清楚人类是从头开始学习还是从先前的演示中学习。即使在预训练期间组织各种演示并在测试时识别它们,对于语言模型来说也是一种进步,但理解少样本学习如何精确工作的确切机制是未来研究的一个重要且尚未探索的方向。

无论目标函数或算法如何,GPT-3这样规模的模型都存在着一些局限性。它们的推理过程既昂贵又不方便,这可能会对它们目前形式下的实际应用性构成挑战。一个可能的未来发展方向是通过蒸馏(Distillation)将大型模型缩减到适合特定任务的可管理规模。[HVD15] GPT-3等大型模型包含非常广泛的技能,其中大多数对于特定任务并不必要,这从理论上表明可以进行大规模的蒸馏。蒸馏技术已经被广泛研究[LHCG19a],但尚未在数百亿参数规模的模型上尝试过;将其应用于这种规模的模型可能会带来新的挑战和机遇。

最后,GPT-3与大多数深度学习系统存在一些共同的局限性——它的决策不易解释,对于新输入的预测校准度不一定高,这在标准基准测试中的性能波动远大于人类时就能观察到;而且它还会保留训练数据的偏见。最后一个问题——数据中的偏见可能导致模型生成刻板或带有偏见的内容——从社会角度来看尤为令人担忧,将在下一节“广泛影响”(第6节)中与其他问题一起讨论。
 

Ankie的评论:

随着时间的推移,OpenAI似乎逐渐走向封闭而非开放。GPT-3的论文,本质上更像是一份结果报告,其中详尽地罗列了各类测试结果。鉴于篇幅所限,我便不再一一赘述。

人工智能论文GPT-3(3):2020.5 Language Models are Few-Shot Learners;架构;训练数据集;开源-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/ank1983/article/details/138014539

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ankie(资深技术项目经理)

打赏就是赞赏,感谢你的认可!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值