人工智能论文GPT-2(4):2019.2 Language Models are Unsupervised Multitask Learners;讨论;结论

4 泛化能力与记忆能力 Generalization vs Memorization


计算机视觉领域的最新研究表明,常见的图像数据集包含大量几乎重复的图像。例如,CIFAR-10的训练和测试图像之间有3.3%的重叠(Barz & Denzler,2019)。这导致机器学习系统的泛化性能被高估。随着数据集规模的增加,这种情况越来越可能发生,这表明WebText也可能存在类似的现象。因此,分析测试数据中有多少也出现在训练数据中至关重要。

为了研究这一点,我们创建了包含WebText训练集标记的8元组的布隆过滤器。为了提高召回率,我们将字符串规范化为只包含小写字母数字单词,并使用单个空格作为分隔符。布隆过滤器是这样构建的:假阳性率的上限为1/10^8。我们进一步通过生成100万个字符串来验证较低的假阳性率,其中过滤器未找到任何字符串。

这些布隆过滤器使我们能够计算给定数据集中,有多少8元组也出现在WebText训练集中。表6显示了常见语言模型基准测试集的这种重叠分析。常见的语言模型数据集测试集与WebText训练集的重叠率在1%至6%之间,平均重叠率为3.2%。有些令人惊讶的是,许多数据集与其自己的训练集拆分之间的重叠更大,平均重叠率为5.9%。

我们的方法优化了召回率,虽然对重叠部分的手动检查显示了许多常见短语,但也有许多更长的匹配项是由于数据重复造成的。这不仅仅是WebText特有的问题。例如,我们发现WikiText-103的测试集中有一篇文章也出现在训练数据集中。由于测试集中只有60篇文章,因此至少有1.6%的重叠率。更令人担忧的是,根据我们的程序,1BW与其自己的训练集的重叠率几乎达到了13.2%。

在Winograd Schema Challenge中,我们只发现了10个与WebText训练集存在任何8元组重叠的模式。其中,2个是虚假的匹配。在剩下的8个模式中,只有1个模式出现在泄露答案的上下文中。

在CoQA中,新闻领域的文档中大约有15%已经包含在WebText中,模型在这些文档上的性能大约提高了3个F1值。CoQA的开发集指标报告了5个不同领域的平均性能,我们测量到由于各个领域的重叠,F1值提高了约0.5-1.0。然而,由于CoQA是在WebText链接截止日期之后发布的,因此WebText中并没有实际的训练问题或答案。

在LAMBADA中,平均重叠率为1.2%。GPT-2在重叠率超过15%的示例上的困惑度大约降低了2。当排除所有存在任何重叠的示例并重新计算指标时,困惑度从8.6增加到8.7,准确率从63.2%降低到62.9%。整体结果的这种微小变化很可能是因为只有1/200的示例存在显著重叠。

总的来说,我们的分析表明,WebText训练数据与特定评估数据集之间的数据重叠为报告的结果提供了虽小但持续的好处。然而,如表6所示,对于大多数数据集,我们没有注意到比标准训练集和测试集之间已经存在的重叠明显更大的重叠。

了解和量化高度相似的文本如何影响性能是一个重要的研究问题。更好的去重技术,例如可扩展的模糊匹配,也有助于更好地回答这些问题。目前,我们建议在创建新的NLP数据集的训练和测试拆分时,将基于n-gram重叠的去重作为一个重要的验证步骤和合理性检查。

确定WebText语言模型的性能是否可归因于记忆力的另一种潜在方法是检查它们在自己保留的集合上的性能。如图4所示,WebText的训练集和测试集的性能相似,并且随着模型规模的增加,性能也会一同提高。这表明即使是GPT-2在很多方面仍然在WebText上欠拟合。

GPT-2也能够撰写关于发现会说话的独角兽的新闻文章。表13中提供了一个示例。

5 相关工作


这项工作的很大一部分是测量在更大数据集上训练的大型语言模型的性能。这与 Jozefowicz 等人(2016)的工作类似,他们在 10 亿词基准上扩展了基于 RNN 的语言模型。Bajgar 等人(2016)之前也通过从 Project Gutenberg 创建更大的训练数据集来补充标准训练数据集,从而在儿童图书测试中改善了结果。Hestness 等人(2017)进行了一项深入的分析,研究了各种深度学习模型的性能如何随模型容量和数据集大小的变化而变化。虽然我们的实验在各项任务中噪声较大,但结果表明相似的趋势在目标任务的子任务中仍然存在,并延续到 10 亿+ 参数范围。

生成模型中有趣的学习功能之前已有记录,例如 RNN 语言模型中的单元执行行宽跟踪和引号/注释检测(Karpathy 等人,2015)。对我们工作更具启发性的是 Liu 等人(2018)的观察,他们训练了一个用于生成维基百科文章的模型,该模型还学会了在不同语言之间翻译名称。
以往的工作已经探索了过滤和构建大型网页文本语料库的替代方法,如 iWeb 语料库(Davies,2018)。

关于语言任务的预训练方法,已经有大量工作进行了研究。除了引言中提到的那些方法,GloVe(Pennington 等人,2014)将词向量表示学习扩展到整个 Common Crawl。文本深度表示学习的一个有影响力的早期工作是 Skip-thought Vectors(Kiros 等人,2015)。McCann 等人(2017)探索了从机器翻译模型中派生出的表示形式的使用,而 Howard & Ruder(2018)则改进了基于 RNN 的微调方法(Dai & Le,2015)。(Conneau 等人,2017a)研究了由自然语言推理模型学习到的表示的迁移性能,而(Subramanian 等人,2018)则探索了大规模多任务训练。

(Ramachandran 等人,2016)表明,seq2seq 模型通过使用预训练的语言模型作为编码器和解码器进行初始化而受益。最近的工作表明,当针对像闲聊对话和基于对话的问答系统等困难的生成任务进行微调时,LM 预训练是有帮助的。

6 讨论Discussion


许多研究致力于学习(Hill 等人,2016)、理解(Levy & Goldberg,2014)以及批判性地评估(Wieting & Kiela,2019)有监督和无监督预训练方法的表示形式。我们的结果表明,无监督任务学习是另一个值得探索的具有前景的研究领域。这些发现可能有助于解释预训练技术在下游 NLP 任务中广泛成功的原因,因为我们发现,在极限情况下,这些预训练技术之一开始学会直接执行任务,而无需进行有监督的适应或修改。

在阅读理解方面,GPT-2 的性能在无监督设置下与有监督基线相当。然而,在其他任务(如摘要)上,虽然它在定性上执行了任务,但其性能根据定量指标来看仍然只是初步的。尽管作为研究结果具有启发性,但在实际应用方面,GPT-2 的无监督性能仍然远未达到可用水平。

我们研究了 WebText 语言模型在许多经典 NLP 任务上的零样本性能,但还有许多其他任务可以进行评估。毫无疑问,GPT-2 在许多实际任务上的表现仍然不如随机结果。即使在我们评估的常见任务上,如问答和翻译,只有当语言模型具有足够的容量时,它们才开始优于简单的基线。

虽然零样本性能为 GPT-2 在许多任务上的潜在性能设定了一个基准,但经过微调后的性能上限尚不清楚。在一些任务上,GPT-2 的完全抽象性输出与当前许多问答和阅读理解数据集上最先进的基于提取式指针网络(Vinyals 等人,2015)的输出有着显著的不同。鉴于微调 GPT 的先前成功,我们计划研究在 decaNLP 和 GLUE 等基准上的微调,尤其是鉴于尚不清楚 GPT-2 的额外训练数据和容量是否足以克服 BERT 所展示的单向表示法的不效率问题。

7 结论Conclusion


当大型语言模型在足够大且多样的数据集上进行训练时,它能够在多个领域和数据集上表现出色。GPT-2 在 8 个测试语言建模数据集中的 7 个上实现了最先进的零样本性能。模型能够在零样本设置下执行的任务多样性表明,训练成能够最大化足够多样化文本语料库可能性的高容量模型,开始学会执行大量任务,而无需明确的监督。

Ankie的评论:

1,GPTv2在足够大且多样的数据集上进行训练时,它能够在多个领域和数据集上表现出色。

2,GPTv2在零样本设置下,专业性能依然强大。通用性能强

3,继续加强无监督学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ankie(资深技术项目经理)

打赏就是赞赏,感谢你的认可!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值