ELECTRA解读

最新推荐文章于 2025-01-04 01:00:00 发布

别水贴了

最新推荐文章于 2025-01-04 01:00:00 发布

阅读量1.1k

点赞数 1

分类专栏： NLP 文章标签：深度学习机器学习人工智能自然语言处理算法

本文链接：https://blog.csdn.net/fengzhou_/article/details/111716003

版权

NLP 专栏收录该内容

18 篇文章

订阅专栏

背景

当今的SOTA的预训练语言模型，比如BERT，采用Mask language model(MLM)的方式破坏输入的内容，通过双向语言模型进行预测重构；然而这存在一个问题，那就是[MASK]这个token在训练中存在但是在实际预测中不存在，为了缓解这个问题，BERT采用了选择语料中15%的TOKEN，在其中80%进行【MASK】，10%随机替换，10%不变，这的确稍微缓解了训练预测不一致的问题(虽然在XLNet利用permutation language model得到解决)，但是确使得BERT必须利用更多的训练语料，需要的算力也大幅增加，为此提出了ELECTRA这个模型解决这个问题，具体论文见《ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS》

ELECTRA

很直接的，为了解决上述说的训练慢，数据要求多的问题，ELECTRA中训练不只是用语料中的subset（即BERT中只是MASK的token）进行预测，而是利用全部的token. 为了达成这个目的，作者训练语言模型的时候不是像bert一样把他看作generator（bert中通过重构被MASK的词，某种程度上可以看成为generator），而是看成discriminator，论文中引入另一个generator去生成相似的词进行替换，训练语言模型的任务就是去判断语料中的每个词是不是被替换了，这里有点对抗学习（GAN）的意思，但是这里并不是用GAN（因为GAN在本文和图片不一样不是连续的，将GAN用在文本生成上有难度）。

Replaced Token Detection

ELECTRA的全称为(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)，作者采用replaced token detection作文ELECTRA的预训练任务。
在这里插入图片描述
如图所示，作者采用一个小型的mask language model作为generator根据词的概率分布输出一个词，另一个discriminator是来预测这个词是不是G生成的。注意这里训练网络不是采用GAN中对抗学习的思想。GAN中训练网络分两步，第一步训练D，最大化其正确判断数据来自真实或来自G的概率；第二步训练G，最小化使得D预测其来自G的概率（即让D做出错误判断）。那么论文里是怎么训练G和D的呢？对于G，和MLM的任务一样，即对于MASK的token对于的节点，通过softmax得到词的概率分布，最大化将输入sequence（含MASK token）还原出来的概率，即最大化概率似然，loss为
在这里插入图片描述
对于D，则和对抗网络中训练D的方式一样，这里将D中每个词对应的输出向量(比如bert是764维)通过矩阵转化到1维，再用sigmoid函数作为预测当前词来自generator采样得到还是原始数据的概率，最终loss为用cross entropy loss。
在这里插入图片描述
所以这里因为训练G的时候没有考虑D，并不是为以欺骗D为目的进行训练的，因此没有对抗的思想。

训练方式

实际训练不同于GAN分别训练D和G，这里采用G的MLM的loss和D与CE loss进行训练网络，注意训练的时候D的CE loss无法更新G的参数因为采样这个步骤数学上不可导。预训练完毕后，G只是副产物，只需用D来进行下游NLP任务的fine-tune，
ELECTRA（即D这一部分）采用和bert一样的结构。另外作者实验发现G小一点会更好（D和bert一样但G相比bert减少layer不变其他参数，建议 1/4-1/2 原bert的大小），另外G和D只共享输入的embedding这个部分(这里输入的embedding和bert一样)。