论文:ELECTRA: Pre-training Text Encoders As Discriminators Rather Then Generators
本文目前在ICLR 2020盲审中,前几天有审稿人发表文章对它大夸特夸,被称为19年最佳NLP预训练模型,另外,在上周的智源北京人工智能大会上,Christopher Manning对这个工作也做了详细介绍,那么,已经不用匿名了,这就是Manning大师的工作,怀着崇拜加欣喜的心情,细细学习了这篇文章,笔记如下。
摘要:虽然诸如BERT之类的掩码语言建模(MLM)预训练方法在下游NLP任务上产生了出色的结果,但它们需要大量的计算才能有效。这些方法通过用[MASK]替换一些词来改变输入,然后训练模型以重建原始词。作为替代方案,我们提出了一种更加样本有效的预训练任务,称为替换词检测。我们的方法不是掩盖输入,而是通过使用从小的生成网络采样的词替换一些输入词来改变输入。然后,我们训练一个判别模型,该模型可以预测损坏的输入中的每个词是否被生成器样本替换,而不是训练一个预测损坏的词的原始身份的模型。实验表明,这种新的预训练任务比MLM更有效,因为该模型从所有输入词中学习,而不仅仅是从被掩盖的小子集中学习。结果显示,在相同的模型大小、数据和计算条件下,通过我们的方法学习的上下文表示大大优于通过BERT和XLNet等方法学习的上下文表示,小模型的收益特别大,例如,在GLUE自然语言理解基准上,我们在一个GPU上训练了4天的模型优于GPT(使用30倍的计算能力训练)。我们的方法在规模上也能很好地发挥作用,我们和RoBERTa(当前最先进的预训练transformer)的性能相当,而使用的计算量不到它的1/4。
1. 简介
当前最先进的语言表示学习方法可以看作是学习降噪自动编码,这类仅选择未标记输入序列的一小部分(通常为15%),掩盖这些标记或注意这些标记,然后训练网络以恢复原始输入的标记。 这些方法可以学习双向表示,因此比语言模型预训练更有效,但是这些掩码语言模型(MLM)方法仅从每个样本15%的词中学习,计算成本非常大。
我们提出了一个新的预训练任务replaced token detection,它的目标是学习区分输入的词。这个方法不采用mask,而是从一个建议分布中采样词来替换输入,这个过程解决了[mask]带来的预训练和fine-tune不一致的问题,然后我们训练一个判别器来预测每个词是原始词还是替换词。判别任务的一个好处是模型从输入的所有词中学习,而不是MLM中那样仅使用掩盖的词ÿ