BERT中，为什么已经有85%不被mask的单词，还需要在15%进行“mask策略”的单词中选取10%保持原词不变？

最新推荐文章于 2024-05-30 13:48:59 发布

muyuqing_sir

最新推荐文章于 2024-05-30 13:48:59 发布

阅读量2.7k

点赞数 8

分类专栏： PTM 文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/muyuqing_sir/article/details/120821544

版权

PTM 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

BERT中，为什么已经有85%不被mask的单词，还需要在15%进行“mask策略”的单词中选取10%保持原词不变？

问题描述：
问题背景：
- BERT的输入数据
- “mask策略”
原因分析：

问题描述：

为什么已经有85%不进行“mask策略”修改的token，还需要在15%进行“mask策略”的token中选取10%保持原词不变？

问题背景：

BERT预训练模型在训练阶段采用MLM任务，会给数据引入[mask]这种标记。但是在下游任务的数据中是没有这种标记的。因此BERT作者设计了“mask策略”的数据修改方式。（当然BERT原文不是这么说的，“mask策略”只是我这么叫它罢了）

BERT的输入数据

BERT预训练模型会对输入数据进行“mask策略”的修改。具体为：
保留85%的token不进行“mask策略”的修改（也就是单词还是其本身
对15%的token进行“mask策略”的修改

“mask策略”

对于被选中需要进行“mask策略”的token：
以80%的概率替换为[MASK]标记；
以10%的概率替换为词表中的任意一个随机的词；
以10%的概率保持原词不变，即不替换。（也就是单词还是其本身

原因分析：

核心原因1：想让模型“明白” 输入的数据中包含真实的单词
核心原因2：85%的那部分token不参与梯度更新
虽然BERT模型会将全部输入的token最终转化为词向量，并预测出来对应的token，但是只有15%进行“mask策略”的token才会计算loss并进行反向传播，能够影响模型。因此，虽然数据中存在85%的token没做任何修改，但是并不能让模型“明白”输入的数据中包含真实的单词。恰恰需要15%能够影响模型的token中，10%不进行替换的单词才能让模型“明白”输入数据中也不全是有错误的。因此能够缓解预训练阶段有[mask]，而下游任务没有[mask]这个不一致问题。

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
BERT中，为什么已经有85%不被mask的单词，还需要在15%进行“mask策略”的单词中选取10%保持原词不变？

BERT中，为什么已经有85%不被mask的单词，还需要在15%进行“mask策略”的单词中选取10%保持原词不变？问题描述：问题背景：BERT的输入数据“mask策略”的修改原因分析：问题描述：为什么已经有85%不进行“mask策略”修改的token，还需要在15%进行“mask策略”的token中选取10%保持原词不变？问题背景：BERT预训练模型在训练阶段采用MLM任务，会给数据引入[mask]这种标记。但是在下游任务的数据中是没有这种标记的。因此BERT作者设计了“mask策略”的数据修改方
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。