ELECTRA

最新推荐文章于 2025-04-10 16:10:39 发布

清风幻影17

最新推荐文章于 2025-04-10 16:10:39 发布

阅读量2.5k

点赞数 1

文章标签： nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41021342/article/details/111989497

版权

ELECTRA

一、 ELECTRA是什么

ELECTRA是谷歌提出的一种预训练模型。全称（Efﬁciently Learning an Encoder that Classiﬁes Token Replacements Accurately.）

论文：ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
使用判别式而非生成式的预训练文本编码器。

二、 ELECTRA模型结构

整体结构如下图所示：

借鉴了对抗网络的思想，共训练两个神经网络模型
左边生成器Generator：
随机屏蔽原始文本中的单词，进行预测学习。
右边判别器Discriminator：
判定单词是否与原始文本一致，如果一致则为真，如果不同则为假。

三、ELECTRA模型如何训练

采用联合训练的方法，但与对抗网络不同的时，参数不在生成器和判别器中反向传播，只共享embedding。embedding大小和判别器的隐层一致。
1.训练生成器n步
2.根据生成器参数初始化判别器，冻结生成器参数，同样训练判别器 n步。

训练完成后丢弃生成器，使用判别器进行下游任务的微调。
模型大小，更小的生成器效果更好，实验证明生成器为判别器的1/2或1/4效果最好。

与对抗网络的区别：

生成器使用最大似然估计训练，而非对抗式训练
当生成器生成与原始文本一致的单词时，判别器的预测标签为“真”。（在对抗网络中，如果是生成器生成的则判别器判定为“假”）

四、ELECTRA 优点

优点：比Bert 模型更小，效率更高，效果更好。计算耗时1 GPU in 4 days

博客等级

码龄8年

41
原创

286
点赞

537
收藏

476
粉丝

关注

私信

热门文章

最新评论

【扩散模型系列3】DiT开源项目
Long_Dragon_v: 您好，请问您已经解决了吗？如何使用DiT训练自己的训练集？
【扩散模型系列3】DiT开源项目
清风幻影17: 应该可以把自己的数据集整理成和imagesnet 一样的格式，然后就可以复用代码进行训练了，我这边也没有使用自己的数据集训练。
【扩散模型系列3】DiT开源项目
shuhai6260: 您好，我想请问，我应该怎么训练自己的数据集哪。恳请大佬指教，谢谢。
【扩散模型系列2】DiT 《Scalable Diffusion Models with Transformers》论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
OPT-IML:Scaling Language Model Instruction MetaLearning through the Lens of Generalization 论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。