阅读笔记 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

最新推荐文章于 2022-08-04 11:21:38 发布

Jaydee Ma

最新推荐文章于 2022-08-04 11:21:38 发布

阅读量2.2k

点赞数 5

文章标签：预训练 NLP 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JaydeeMa/article/details/103187453

版权

ELECTRA通过引入Replaced Token Detection任务，替代BERT的Masked Language Modeling，以更高效的方式进行预训练。在减少参数量和计算开销的情况下，ELECTRA达到了甚至超过RoBERTa的效果。它采用了一个基于MLM的生成器替换部分tokens，然后由判别器判断是否被替换，形成了一种NLP领域的Generator-Discriminator结构。实验表明，共享embedding层权重并适当调整生成器大小能优化模型性能。ELECTRA在多个NLP任务上表现出色，展示了其在细粒度语义表示方面的优势。

摘要由CSDN通过智能技术生成

本文的主要贡献：

将BERT与类似于GAN的结构相结合，并辅以新的预训练任务来做预训练 – 在更少的参数量和数据下，效果超越BERT，并且仅用1/4的算力就达到了SOTA模型RoBERTa的效果：在这里插入图片描述

Introduction：

当下流行的MLM（Masked Language Modeling）方法会大大增加计算开销，原因：模型只学到每个example中15%的tokens信息，而且有些token可能会很简单。
因此，我们创新性地提出了RTD （Replaced Token Detection）这样的新的预训练任务。
ELECTRA – Efficiently Learning an Encoder that Classifies Token Replacements Accurately
先来看一下效果：

Methods：

NLP式的Generator-Discriminator：

最低0.47元/天解锁文章

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
阅读笔记 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

本文的主要贡献：将BERT与类似于GAN的结构相结合，并辅以新的预训练任务来做预训练 – 在更少的参数量和数据下，效果超越BERT，并且仅用1/4的算力就达到了SOTA模型RoBERTa的效果：Introduction：当下流行的MLM（Masked Language Modeling）方法会大大增加计算开销，原因：模型只学到每个example中15%的tokens信息，而且有些token...
复制链接

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。