BERT家族:ELECTRA

ELECTRA

论文:《Efficiently Learning an Encoder that Classifies Token Replacements Accurately》

论文地址:https://openreview.net/attachment?id=r1xMH1BtvB&name=original_pdf

作者/机构:斯坦福+google

年份:2019.11

ELECTRA对Bert的改进最主要的体现在是提出了新的预训练任务和框架,把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务,判断当前token是否被语言模型替换过。模型总体结构如下:

使用一个MLM的Generator-BERT(生成器)来对输入句子进行更改,然后传给Discriminator-BERT(判别器)去判断哪个词被改过。

(1)训练方式

生成器的训练目标还是MLM(预测被mask的词是否是原词,目标空间大小是词表长度),判别器的训练目标是序列标注(判断每个token是真是假,目标空间大小是2),两者同时训练,但判别器的梯度不会传给生成器,目标函数如下:

其中,λ=50,因为判别器的任务相对来说容易些,loss相对MLM loss会很小,因此加上一个系数λ,这也是多任务联合训练的惯用技巧。

(2)训练策略

a.在优化判别器时计算了所有token上的loss,而BERT的MLM loss时会忽略没被mask的token。作者在后来的实验中也验证了在所有token上进行loss计算会提升效率和效果。

b.作者设置了相同大小的生成器和判别器,在不共享权重下的效果是83.6,只共享token embedding层的效果是84.3,共享所有权重的效果是84.4,最后选择只共享Embedding层参数。

c....

更多NLP相关技术干货,请关注我的微信公众号【NLP有品

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值