论文笔记 _ ELECTRA_ Pre-training Text Encoders as Discriminators Rather than Generators

最新推荐文章于 2023-05-27 01:15:10 发布

期待成功

最新推荐文章于 2023-05-27 01:15:10 发布

阅读量266

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/u011150266/article/details/118252525

版权

作者：韩
单位：燕山大学

论文地址：https://openreview.net/pdf?id=r1xMH1BtvB

一、前言

BERT类的掩码语言建模(MLM)方法在下游 NLP 任务上产生了出色的结果，但它们需要大量的计算才能有效。这些方法通过用 [MASK] 替换一些令牌来破坏输入，然后训练模型以重建原始令牌。作为替代方案，本文提出了一种更加 sample-efficient 的预训练任务，称为 replaced token detection 替换令牌检测。本文的方法不是掩盖输入，而是通过使用从小的生成器采样的合理的替代令牌来替换部分输入令牌从而破坏输入。然后训练一个判别模型，该模型可以预测损坏的输入中的每个令牌是否被生成器样本替换，而不是训练一个预测损坏的令牌的原始令牌的模型。

全面的实验表明，这种新的预训练任务比MLM更有效，因为该模型从所有输入令牌中学习，而不仅仅是从被掩盖的部分中学习。结果，在相同的模型大小，数据和计算条件下，通过本文方法学习的上下文表示大大优于通过 BERT 和 XLNet 等方法学习的上下文表示。小模型的收益尤为明显。例如，在 GLUE 自然语言理解基准上，一个GPU上训练了 4 天的模型优于 GPT (30倍的计算量)。本文的方法在大规模上也能很好地发挥作用，可以媲美当前最先进的预训练变压器 RoBERTa 的性能，而只使用不到 1/4 的计算量。

二、概述

本文提出了 replaced token detection 替换令牌检测任务，训练模型分辨输入令牌中由小型的 MLM 生成的替换 token。这一方法解决了 BERT 中的 mismatch 问题：预训练时网络会看到人为的[MASK]令牌而在下游任务上微调时却不会看到。通过训练判别器分辨每一个 token 是否被替换，而不是 MLM 那样训练网络作为生成器预测被损坏的 token 的原始 token，从而使模型从所有的输入 token 中学习而不是 MLM 中那样仅从 masked 的部分 token 学习，这提高了计算效率。

本文的方法并不是对抗性的，使用最大似然来训练生成器生成替代的 token。

ELECTRA 是 Efficiently Learning an Encoder that Classifies Token Replacements Accurately 的简写，模型以 GLUE Score 作为性能指标。从图 1 可以看出，在相同的模型大小、数据和计算条件下，ELECTRA 的性能明显优于基于 BERT 和 XLNet 的基于 MLM 的方法。ELECTRA-Small(可以在4天内用1块GPU上完成训练)不仅比 BERT-Small 要好，甚至还优于更大的 GPT 模型。而在更大规模下，模型取得了和 RoBERTa 相匹配的性能，但是只使用了不到 1/4 的计算量并且参数量更少。

与现有的生成式的语言表示学习方法相比，区分真实数据和具有挑战性的负样本的分类任务具有更高的计算效率和参数效率 compute-efficient and parameter-efficient 。