人工智能论文GPT-2（1）：2019.2 Language Models are Unsupervised Multitask Learners；摘要；引言；增强通用能力，而不是特定应试能力

Ankie（资深技术项目经理）

已于 2024-04-29 20:37:36 修改

阅读量914

点赞数 19

分类专栏：人工智能AI 虚拟现实VR 黑客帝国 # GPT 文章标签：人工智能 gpt 语言模型深度学习 transformer 无监督学习通用人工智能

于 2024-04-15 00:06:13 首次发布

本文链接：https://blog.csdn.net/ank1983/article/details/137755241

版权

人工智能AI 虚拟现实VR 黑客帝国同时被 2 个专栏收录

76 篇文章 4 订阅

订阅专栏

GPT

24 篇文章 0 订阅

订阅专栏

Abstract 摘要

自然语言处理任务，如问答、机器翻译、阅读理解与摘要，通常是通过在特定任务的数据集上进行监督学习来处理的。我们证明，当在名为WebText的包含数百万网页的新数据集上进行训练时，语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档和问题为条件时，语言模型生成的答案在CoQA数据集上达到了55 F1的分数，这匹配或超过了四个基准系统中的三个，而且并没有使用超过127,000个训练样本。语言模型的容量对零样本任务迁移的成功至关重要，增加容量可以在任务中以对数线性方式提升性能。我们规模最大的模型GPT-2是一个包含15亿参数的转换器，它在零样本设置下在8个测试语言建模数据集中的7个上取得了最先进的结果，但仍然未能充分拟合WebText。模型的样本反映了这些改进，并包含了连贯的文本段落。这些发现为构建通过自然发生的演示来学习执行任务的语言处理系统提供了一条有前途的道路。

1. Introduction 引言

机器学习系统现在（在预期中）通过大型数据集、高容量模型和监督学习的组合，在它们所训练的任务上表现出色。然而，这些系统非常脆弱，对数据分布和任务规范的微小变化非常敏感。目前的系统更适合被描述为狭窄领域的专家，而非全能多面手。我们希望能够朝着更加通用的系统发展，这些系统能够执行多种任务——最终无需手动为每个任务创建和标记训练数据集。

创建机器学习系统的主流方法是收集一个包含训练示例的数据集，这些示例展示了针对所需任务的正确行为，训练系统来模仿这些行为，然后在独立且同分布（IID）的保留示例上测试其性能。这种方法在狭窄领域的专家方面取得了很好的进展。但是，字幕模型（Lake等人，2017）、阅读理解系统（Jia和Liang，2017）以及图像分类器（Alcorn等人，2018）在可能输入的多样性和变化性上经常表现出的不稳定行为，凸显了这种方法的某些缺点。

我们怀疑，针对单一领域数据集的单一任务训练普遍存在，这是当前系统缺乏泛化能力的主要原因。使用当前架构朝着构建鲁棒性系统迈进，可能需要在各种领域和任务上进行训练和性能评估。最近，已经提出了几个基准测试，如GLUE（Wang等人，2018）和decaNLP（McCann等人，2018），以开始研究这一问题。多任务学习（Caruana，1997）是提高通用性能的一个有前景的框架。然而，NLP中的多任务训练仍处于初级阶段。最近的工作报告了性能上的适度提升（Yogatama等人，2019），而迄今为止最雄心勃勃的两项努力分别训练了10个和17个数据集-目标配对。从元学习的角度来看，每个数据集-目标配对都是从数据集和目标分布中抽取的一个单一训练示例。当前的ML系统需要成百上千个示例来归纳出具有良好泛化能力的函数。这表明，采用当前的方法，多任务训练可能需要同样多的有效训练对才能实现其承诺。随着当前技术的不断发展，继续扩大数据集的创建和目标的设计将变得非常困难，可能无法达到通过蛮力实现的目标。这促使我们探索执行多任务学习的其他设置。

目前，在语言任务上表现最好的系统是利用预训练和监督微调的结合。这种方法有着悠久的历史，且趋势是朝着更灵活的迁移形式发展。首先，人们学习词向量，并将其用作特定任务架构的输入；然后，人们转移循环网络的上下文表示；最近的工作表明，特定任务的架构不再必要，转移多个自注意力块就足够了。这些方法仍然需要监督训练来执行特定任务。当只有极少或没有监督数据时，另一项工作展示了语言模型执行特定任务的前景，如常识推理和情感分析。

在本文中，我们将这两项工作联系起来，并继续探索更通用的迁移方法。我们证明，语言模型可以在零样本设置下执行下游任务——无需修改任何参数或架构。我们展示了这种方法的潜力，并强调了语言模型在零样本设置下执行广泛任务的能力。根据任务的不同，我们取得了有前景、有竞争力且最先进的结果。

Ankie的评论：

1， GPT v2的背景是：GPT v1（2018.6）使用了transformer效果很好，Google团队看到后，隔了4个月就是2018.10自己做了一个3.5亿（350m）参数的BERT，把榜单统统刷了一遍。GPT v1的参数大概1.1亿（110m），BERT的训练素材更大。又隔了4个月，GPT v2（2019.2）直接把训练参数提高到了15亿（1.5B），5倍于BERT，正式拉开军备竞赛。

2，GPT v2想解决的问题是：加强无监督学习，让模型更智能，更容易泛华。增强通用能力，而不是特定应试能力（狭窄领域）