《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》（ICLR-2020）论文阅读

最新推荐文章于 2022-08-04 11:21:38 发布

筱踏云

最新推荐文章于 2022-08-04 11:21:38 发布

阅读量525

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34372112/article/details/108691617

版权

论文笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前言

论文地址：https://openreview.net/forum?id=r1xMH1BtvB
代码地址：https://github.com/google-research/electra

Abstract

就跟题目里说的一样，它将目标放在了 Discriminator 上了，换句话说，它跟 GAN 的结构相似，但是判别器是语言模型，然后最终用的也是判别器。

1、Introduction

像 Bert 这种，使用 mask 的方式来训练，的确能取得很好的效果，但是需要大量的算力，比如每次用 15% 的掩码，只能学到这些 token 信息。

使用生成式模型有两个缺点：1、模型过于保守。2、目标的抽象层次低，例如Masked Language Model的损失计算都是token-level的。

2、Method

模型如下：
在这里插入图片描述
这里，生成器是一个 Masked language model, 判别器相当于是一个序列标注模型，通俗一点讲就是，生成器来预测 masked 的token，判别器来判断它是否是被替换的句子。目标函数为：

从公式中可以看出，生成器和叛变器是同时训练的，但是判别器的梯度并不会传给生成器。另外判别器的任务容易训练一些，所以应该加一个比较大的权重，作者用的50。另外 Generator 是个小模型，而不能是 Bert 这样的大参数的模型，因为如果 Generator 很厉害，Discriminator 就很难学好。

另外，这里其实可以像 GAN 一样来做，离散的梯度使用 policy gradient 来做，不过那样不稳定，作者也表示 policy gradient 效果不好。

3、Experiments

关于 GLUE 数据集，可以看我另外一篇博客：https://blog.csdn.net/qq_34372112/article/details/108692492

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》（ICLR-2020）论文阅读

前言论文地址：https://openreview.net/forum?id=r1xMH1BtvB代码地址：https://github.com/google-research/electraAbstract就跟题目里说的一样，它将目标放在了 Discriminator 上了，换句话说，它跟 GAN 的结构相似，但是判别器是语言模型，然后最终用的也是判别器。1、Introduction像 Bert 这种，使用 mask 的方式来训练，的确能取得很好的效果，但是需要大量的算力，比如每次用 15
复制链接

扫一扫

专栏目录

筱踏云 CSDN认证博客专家 CSDN认证企业博客

码龄8年

39: 原创

30万+: 周排名

164万+: 总排名

6万+: 访问

: 等级

981: 积分

9: 粉丝

44: 获赞

18: 评论

100: 收藏

私信

关注

热门文章

分类专栏

爬虫 1篇
论文笔记 9篇
深度学习 5篇
强化学习 2篇
机器学习 7篇
工具 6篇
报错 4篇
pytorch 3篇
Python 1篇
Ubuntu 2篇

最新评论

python安装opencc包失败
大大蝌蚪: 亲测有效感谢博主
pytorch 判断并替换 nan
Skill_killer: 不错，很有效果
极大似然估计与交叉熵
Xunuo1995: 约等于哪里怎么理解
《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》（ICLR-2020）论文阅读
weixin_39745219: 在3.5 Efficiency Analysis中，Replace MLM描述“不用[MASK]替换tokens，而是用生成器生成的token替换”是什么意思？是先对输入进行15%的[mask]，然后用生成器预测的token替换[mask]么？那这个岂不是跟MLM的步骤一样了？我没太明白这一块，麻烦您帮忙解释一下，谢谢。
Python谷歌翻译（防封版）
African????: 报错

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。