媲美ROBERTA? ELECTRA快速了解一下!

这两个月打比赛的时候,有些小伙伴提到了electra这个预训练模型,说是能用roberta预训练运算量的1/4,甚至更少,使下游任务性能达到与roberta相当效果。为此,up打开了这篇论文,快速预览了一波,看看它到底何方神圣。

 

论文地址:https://openreview.net/pdf?id=r1xMH1BtvB

在很久之前,笔者已经更新了BERT的原理与应用,electra又是和bert相类似的预训练模型。笔者在这里就直接拿BERT的预训练方式和electra来做对比,看看electra到底有什么不一样的地方。

1.1 关键思想

Electra采用的预训练方式主要是GAN思想主导的预训练,笔者之前也介绍过GAN到底是怎么回事,不会的小伙伴可以去翻阅一下生成对抗网络 | 原理及训练过程

我们知道BERT是直接采用15%的“[MASK]”来掩盖某些字符(token),让模型在预训练过程中预测被“[MASK]”掉的字符(token)。

 

而electra则采用将这个思想用在Gan(generator)的生成器中,先随机“[MASK]”掉一些字符(token),然后用一个生成器(generator)对被“[MASK]”的字符生成相应的“伪字符(fake token)”,而discriminator辨别器(也就是electra)用来判断哪些字符(token)被更换过,论文作者将这个预训练任务称之为RTD(replaced token detection)。

                           

 

1.2 总结

这篇文章主要的贡献是提出了一种最新的BERT类模型的预训练方式:RTD(replaced token detection)。关键思想是训练文本编码器,以区分输入令牌与由小型生成器generator网络产生的高质量负样本。与MLM(masked language modeling,也就是BERT的预训练方式)相比,它的预训练目标具有更高的计算效率,并且可以在下游任务上实现更好的性能。即使使用相对较少的计算量,它也能很好地工作。

至于具体的效果好不好,笔者这边还没有完全测过。不过笔者的师弟用electra跑某个比赛数据,线上成绩倒是上了6个百分点,然而这个比赛的数据集比较小,也不具备太多权威性。

  最后值得一说的是,现在的预训练模型自BERT横空出世之后,便如雨后春笋般层出不穷,不过我们只要掌握BERT的原理与应用,大致就可以快速读懂一个新的预训练模型的原理,它们大多都是基于BERT原有的缺陷进行改进的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值