人工智能论文GPT-2(3):2019.2 Language Models are Unsupervised Multitask Learners;实验结果;

3 实验Experiments

我们训练并基准测试了四个大小大致呈对数均匀分布的语言模型。这些模型的架构总结在表2中。

  • 最小的模型与原始GPT相当,
  • 第二小的模型与BERT中最大的模型相当(Devlin等人,2018)。
  • 最大的模型为GPT-2,它的参数数量比GPT多出一个数量级。

每个模型的学习率都是手动调整的,以在WebText的5%保留样本上获得最佳困惑度。所有模型仍然不能很好地拟合WebText,而且随着训练时间的增加,保留的困惑度至今仍在改进。

3.1 语言建模Language Modeling

作为向零样本任务迁移的初步步骤,我们感兴趣的是了解WebText语言模型(LM)在它们所训练的主要任务——语言建模上,进行零样本领域迁移时的表现。由于我们的模型在字节级别上操作,无需损失性的预处理或分词,因此我们可以将其评估在任何语言模型基准上。语言建模数据集的结果通常以平均负对数概率的缩放或指数化版本的形式报告,通常以字符、字节或单词作为规范预测单位。我们通过计算WebText语言模型的数据集的对数概率,然后除以规范单位的数量,来评估相同的数量。对于许多这样的数据集,WebText语言模型将接受显著的非分布测试,必须预测经过激进标准化的文本、分词伪影(如断开的标点符号和缩写)、打乱的句子,甚至是WebText中非常罕见的字符串<UNK>——在400亿字节中仅出现26次。我们在表3中报告了使用可逆去分词器的主要结果,这些去分词器尽可能多地移除了这些分词/预处理伪影。由于这些去分词器是可逆的,因此我们仍然可以计算数据集的对数概率,并且可以将它们视为一种简单的领域自适应形式。我们观察到,在使用这些去分词器的情况下,GPT-2的困惑度提高了2.5到5。

WebText语言模型在不同领域和数据集之间表现出良好的迁移能力,在零样本设置下,8个数据集中的7个都达到了最先进的水平。在小型数据集上,如Penn Treebank和WikiText-2,这些数据集只有1到2百万个训练令牌,我们注意到了显著的提升。同时,在用于衡量长期依赖性的数据集上,如LAMBADA(Paperno等人,2016)和儿童图书测试(Hill等人,2015),我们也观察到了显著的进步。然而,在十亿词基准One Billion Word Benchmark(Chelba等人,2013)上,我们的模型仍然显著逊于先前的工作。这可能是由于它既是最大的数据集,又具有一些最具破坏性的预处理步骤——1BW的句子级混洗去除了所有长程结构。

3.2 儿童图书测试Children’s Book Test (CBT)

儿童图书测试(CBT)(Hill等人,2015)旨在考察语言模型在不同类别词汇上的表现:命名实体、名词、动词和介词。CBT没有将困惑度作为评价指标,而是报告了在自动构建的填空测试中的准确性,测试任务是预测省略词中的哪一个是从10个可能的选择中正确选出的。我们遵循原始论文中介绍的语言模型方法,计算每个选择以及根据语言模型选择其余句子的概率,并预测概率最高的那个词。如图2所示,随着模型大小的增加,性能稳步提高,并在很大程度上缩小了与人类在此测试上的性能差距。数据重叠分析表明,CBT测试集中的一本书《丛林之书》(作者:鲁德亚德·吉卜林)在WebText中,因此我们在没有显著重叠的验证集上报告结果。GPT-2在普通名词和命名实体上分别达到了93.3%和89.1%的新最先进水平。我们应用了一个去分词器,以去除CBT中的PTB风格分词伪影。

3.3 LAMBADA

LAMBADA数据集(Paperno等人,2016)测试了系统在文本中建模长程依赖关系的能力。该任务要求预测需要至少50个令牌上下文才能成功预测的句子的最后一个词。GPT-2将最先进的水平从99.8(Grave等人,2016)提高到8.6困惑度,并将此测试上语言模型的准确性从19%(Dehghani等人,2018)提高到52.66%。调查GPT-2的错误发现,大多数预测都是句子的有效延续,但并非有效的最后一个词。这表明语言模型没有使用额外的有用约束,即该词必须是句子的最后一个词。添加一个停用词过滤器作为对此的近似,可以进一步提高准确性至63.24%,从而使该任务的整体最先进水平提高了4%。先前的最先进水平(Hoang等人,2018)使用了不同的受限预测设置,其中模型的输出仅限于出现在上下文中的词。对于GPT-2,这种限制是有害的而不是有益的,因为19%的答案不在上下文中。我们使用了未经预处理的数据集版本。

3.4 Winograd Schema Challenge

Winograd Schema挑战(Levesque等人,2012)旨在通过测量系统解决文本中歧义的能力来评估其进行常识推理的能力。最近,Trinh和Le(2018)通过使用语言模型在该挑战上取得了显著进展,他们通过预测具有更高概率的歧义解析来解决歧义。我们遵循他们的问题设定,并在图3中使用全分和部分分技术可视化我们模型的性能。GPT-2将最先进的准确率提高了7%,达到了70.70%。该数据集非常小,只有273个示例,因此我们建议阅读Trichelair等人(2018)的文章,以帮助理解这一结果的背景。

3.5 阅读理解Reading Comprehension

对话问答数据集(CoQA)(Reddy等人,2018)包含来自7个不同领域的文档,每个文档都与一个问题询问者和问题回答者之间的自然语言对话配对,对话内容围绕文档展开。CoQA测试了阅读理解能力,也测试了模型回答依赖于对话历史的问题的能力(如“为什么?”)。

当GPT-2以文档、相关对话历史和最终标记A为条件进行贪婪解码时,在开发集上达到了55的F1值。这匹配或超过了4个基线系统中的3个,且未使用127,000多个手动收集的问题答案对,这些基线系统就是基于这些对进行训练的。目前最先进的监督系统是基于BERT的系统,其性能接近人类89的F1值。尽管对于没有监督训练的GPT-2来说,这样的性能表现令人兴奋,但对其答案和错误的一些检查表明,GPT-2经常使用基于简单检索的启发式方法,如用文档中的名字来回答“谁”的问题。

3.6 摘要生成Summarization

我们测试了GPT-2在CNN和Daily Mail数据集(Nallapati等人,2016)上进行摘要生成的能力。为了诱导摘要生成行为,我们在文章后添加了文本“TL;DR:”,并使用Top-k随机抽样(Fan等人,2018)方法生成100个标记,其中k=2,以减少重复并鼓励比贪婪解码更具抽象性的摘要。我们将这100个标记中生成的前3个句子用作摘要。如表14所示,虽然从质量上看,这些生成的摘要与摘要相似,但它们往往侧重于文章中的最新内容或混淆特定细节,如车祸中涉及了多少辆车,或者标志是在帽子上还是在衬衫上。在常见的ROUGE 1、2、L指标上,生成的摘要才开始接近经典神经基线的性能,并勉强超过了从文章中随机选择3个句子的表现。当移除任务提示时,GPT-2在综合指标上的性能下降了6.4分,这表明了通过自然语言在语言模型中调用特定任务行为的能力。

3.7 翻译Translation

我们测试了GPT-2是否已经开始学习如何将一种语言翻译成另一种语言。为了帮助它推断出这是所需的任务,我们将语言模型置于格式为“英语句子 = 法语句子”的示例对上下文中,然后在“英语句子 =”的最终提示后,我们使用贪婪解码从模型中采样,并将生成的第一句作为翻译。在WMT-14英语-法语测试集上,GPT-2获得了5个BLEU分数,这略差于先前在无监督单词翻译工作中推断出的双语词典的逐词替换方法。在WMT-14法语-英语测试集上,GPT-2能够利用其非常强大的英语语言模型来取得显著更好的表现,达到了11.5个BLEU分数。这超过了(Artetxe等人,2017)和(Lample等人,2017)中的几个无监督机器翻译基线,但仍远逊于当前最佳无监督机器翻译方法(Artetxe等人,2019)的33.5个BLEU分数。这项任务的表现令我们感到惊讶,因为我们故意从WebText中移除了非英语网页作为过滤步骤。为了确认这一点,我们在WebText上运行了一个字节级别的语言检测器,该检测器仅检测到10MB的法语数据,这大约是先前无监督机器翻译研究中常见的单语法语语料库的500倍小。

3.8 问答Question Answering

测试语言模型包含哪些信息的一种潜在方法是评估它生成事实类问题正确答案的频率。在神经网络系统中,所有信息都存储在参数中,例如神经对话模型(Vinyals & Le,2015)展示了这种行为,但由于缺乏高质量评估数据集,因此只报告了定性结果。最近引入的自然问题数据集是一个有前景的资源,可以更定量地测试这一点。与翻译类似,语言模型的上下文是通过示例问题答案对进行引导的,这有助于模型推断数据集中的简短答案风格。

使用在阅读理解数据集(如SQUAD)上常用的精确匹配指标进行评估时,GPT-2正确回答了4.1%的问题。作为比较点,最小的模型没有超过一个极其简单基准的1.0%准确率,该基准针对每种问题类型(谁、什么、哪里等)返回最常见的答案。GPT-2正确回答了5.3倍多的问题,这表明模型容量一直是神经网络系统在这种任务上表现不佳的主要因素。GPT-2为其生成的答案分配的概率是经过良好校准的,并且在它最有信心的1%的问题上,GPT-2的准确率为63.1%。GPT-2在开发集问题上生成的30个最自信的答案如表5所示。GPT-2的性能仍然远远低于30%至50%的开放领域问答系统,这些系统将信息检索与抽取式文档问答相结合。

Ankie的评论:

1,2018.10 Google的BERT性能超过了GPT v1,OpenAI准备了4组GPT v2的配置与其对比:

  • 最小的模型与原始GPT相当,110M
  • 第二小的模型与BERT中最大的模型相当,345M。
  • 最大的模型为GPT-2,它的参数数量比GPT多出一个数量级。1542M

测试结果表明:参数越大,性能越高。这也就是所谓的scaling law。军备竞赛一发不可收拾。

2,OpenAI目标清楚:想做通用人工智能。希望不要仅仅在那几个专业赛道卷。因此GPT v2模型训练好了之后,直接测试各种项目,结果有好有坏。

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ankie(资深技术项目经理)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值