BERT中,为什么已经有85%不被mask的单词,还需要在15%进行“mask策略”的单词中选取10%保持原词不变?

BERT中,为什么已经有85%不被mask的单词,还需要在15%进行“mask策略”的单词中选取10%保持原词不变?

问题描述:

为什么已经有85%不进行“mask策略”修改的token,还需要在15%进行“mask策略”的token中选取10%保持原词不变?

问题背景:

BERT预训练模型在训练阶段采用MLM任务,会给数据引入[mask]这种标记。但是在下游任务的数据中是没有这种标记的。因此BERT作者设计了“mask策略”的数据修改方式。(当然BERT原文不是这么说的,“mask策略”只是我这么叫它罢了)

BERT的输入数据

BERT预训练模型会对输入数据进行“mask策略”的修改。具体为:
保留85%的token不进行“mask策略”的修改(也就是单词还是其本身
对15%的token进行“mask策略”的修改

“mask策略”

对于被选中 需要进行“mask策略”的token:
以80%的概率替换为[MASK]标记;
以10%的概率替换为词表中的任意一个随机的词;
以10%的概率保持原词不变,即不替换。(也就是单词还是其本身

原因分析:

核心原因1:想让模型“明白” 输入的数据中包含真实的单词
核心原因2:85%的那部分token不参与梯度更新
虽然BERT模型会将全部输入的token最终转化为词向量,并预测出来对应的token,但是只有15%进行“mask策略”的token才会计算loss并进行反向传播,能够影响模型。因此,虽然数据中存在85%的token没做任何修改,但是并不能让模型“明白”输入的数据中包含真实的单词。恰恰需要15%能够影响模型的token中,10%不进行替换的单词才能让模型“明白”输入数据中也不全是有错误的。因此能够缓解预训练阶段有[mask],而下游任务没有[mask]这个不一致问题。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值