阅读笔记 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

ELECTRA通过引入Replaced Token Detection任务,替代BERT的Masked Language Modeling,以更高效的方式进行预训练。在减少参数量和计算开销的情况下,ELECTRA达到了甚至超过RoBERTa的效果。它采用了一个基于MLM的生成器替换部分tokens,然后由判别器判断是否被替换,形成了一种NLP领域的Generator-Discriminator结构。实验表明,共享embedding层权重并适当调整生成器大小能优化模型性能。ELECTRA在多个NLP任务上表现出色,展示了其在细粒度语义表示方面的优势。
摘要由CSDN通过智能技术生成

本文的主要贡献:

BERT与类似于GAN的结构相结合,并辅以新的预训练任务来做预训练 – 在更少的参数量和数据下,效果超越BERT,并且仅用1/4的算力就达到了SOTA模型RoBERTa的效果:在这里插入图片描述

Introduction:

  • 当下流行的MLM(Masked Language Modeling)方法会大大增加计算开销,原因:模型只学到每个example中15%的tokens信息,而且有些token可能会很简单。
  • 因此,我们创新性地提出了RTD (Replaced Token Detection)这样的新的预训练任务。
  • ELECTRA – Efficiently Learning an Encoder that Classifies Token Replacements Accurately
  • 先来看一下效果:在这里插入图片描述

Methods:

  • NLP式的Generator-Discriminator:

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值