BERT家族：ELECTRA

最新推荐文章于 2024-05-16 12:32:15 发布

姆爷

最新推荐文章于 2024-05-16 12:32:15 发布

阅读量307

点赞数

分类专栏：预训练语言模型 BERT 文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32223859/article/details/106350795

版权

BERT 同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

预训练语言模型

13 篇文章 1 订阅

订阅专栏

ELECTRA

论文：《Efficiently Learning an Encoder that Classifies Token Replacements Accurately》

论文地址：https://openreview.net/attachment?id=r1xMH1BtvB&name=original_pdf

作者/机构：斯坦福+google

年份：2019.11

ELECTRA对Bert的改进最主要的体现在是提出了新的预训练任务和框架，把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务，判断当前token是否被语言模型替换过。模型总体结构如下：

使用一个MLM的Generator-BERT（生成器）来对输入句子进行更改，然后传给Discriminator-BERT（判别器）去判断哪个词被改过。

（1）训练方式

生成器的训练目标还是MLM（预测被mask的词是否是原词，目标空间大小是词表长度），判别器的训练目标是序列标注（判断每个token是真是假，目标空间大小是2），两者同时训练，但判别器的梯度不会传给生成器，目标函数如下：

其中，λ=50，因为判别器的任务相对来说容易些，loss相对MLM loss会很小，因此加上一个系数λ，这也是多任务联合训练的惯用技巧。

（2）训练策略

a.在优化判别器时计算了所有token上的loss，而BERT的MLM loss时会忽略没被mask的token。作者在后来的实验中也验证了在所有token上进行loss计算会提升效率和效果。

b.作者设置了相同大小的生成器和判别器，在不共享权重下的效果是83.6，只共享token embedding层的效果是84.3，共享所有权重的效果是84.4，最后选择只共享Embedding层参数。

c....

更多NLP相关技术干货，请关注我的微信公众号【NLP有品】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT家族：ELECTRA

ELECTRA论文：《Efficiently Learning an Encoder that Classifies Token Replacements Accurately》论文地址：https://openreview.net/attachment?id=r1xMH1BtvB&name=original_pdf作者/机构：斯坦福+google年份：2019.11ELECTRA对Bert的改进最主要的体现在是提出了新的预训练任务和框架，把生成式的Masked language
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。