ELECTRA - 比BERT更快更好的预训练模型

最新推荐文章于 2025-04-22 14:33:49 发布

black_soil

最新推荐文章于 2025-04-22 14:33:49 发布

阅读量3.4k

点赞数 1

本文链接：https://blog.csdn.net/black_soil/article/details/102944521

版权

论文：ELECTRA: Pre-training Text Encoders As Discriminators Rather Then Generators

本文目前在ICLR 2020盲审中，前几天有审稿人发表文章对它大夸特夸，被称为19年最佳NLP预训练模型，另外，在上周的智源北京人工智能大会上，Christopher Manning对这个工作也做了详细介绍，那么，已经不用匿名了，这就是Manning大师的工作，怀着崇拜加欣喜的心情，细细学习了这篇文章，笔记如下。

摘要：虽然诸如BERT之类的掩码语言建模（MLM）预训练方法在下游NLP任务上产生了出色的结果，但它们需要大量的计算才能有效。这些方法通过用[MASK]替换一些词来改变输入，然后训练模型以重建原始词。作为替代方案，我们提出了一种更加样本有效的预训练任务，称为替换词检测。我们的方法不是掩盖输入，而是通过使用从小的生成网络采样的词替换一些输入词来改变输入。然后，我们训练一个判别模型，该模型可以预测损坏的输入中的每个词是否被生成器样本替换，而不是训练一个预测损坏的词的原始身份的模型。实验表明，这种新的预训练任务比MLM更有效，因为该模型从所有输入词中学习，而不仅仅是从被掩盖的小子集中学习。结果显示，在相同的模型大小、数据和计算条件下，通过我们的方法学习的上下文表示大大优于通过BERT和XLNet等方法学习的上下文表示，小模型的收益特别大，例如，在GLUE自然语言理解基准上，我们在一个GPU上训练了4天的模型优于GPT（使用30倍的计算能力训练）。我们的方法在规模上也能很好地发挥作用，我们和RoBERTa（当前最先进的预训练transformer）的性能相当，而使用的计算量不到它的1/4。

1. 简介

当前最先进的语言表示学习方法可以看作是学习降噪自动编码，这类仅选择未标记输入序列的一小部分（通常为15％），掩盖这些标记或注意这些标记，然后训练网络以恢复原始输入的标记。这些方法可以学习双向表示，因此比语言模型预训练更有效，但是这些掩码语言模型（MLM）方法仅从每个样本15%的词中学习，计算成本非常大。

我们提出了一个新的预训练任务replaced token detection，它的目标是学习区分输入的词。这个方法不采用mask，而是从一个建议分布中采样词来替换输入，这个过程解决了[mask]带来的预训练和fine-tune不一致的问题，然后我们训练一个判别器来预测每个词是原始词还是替换词。判别任务的一个好处是模型从输入的所有词中学习，而不是MLM中那样仅使用掩盖的词ÿ