BERT中,为什么已经有85%不被mask的单词,还需要在15%进行“mask策略”的单词中选取10%保持原词不变?
BERT中,为什么已经有85%不被mask的单词,还需要在15%进行“mask策略”的单词中选取10%保持原词不变?问题描述:问题背景:BERT的输入数据“mask策略”的修改原因分析:问题描述:为什么已经有85%不进行“mask策略”修改的token,还需要在15%进行“mask策略”的token中选取10%保持原词不变?问题背景:BERT预训练模型在训练阶段采用MLM任务,会给数据引入[mask]这种标记。但是在下游任务的数据中是没有这种标记的。因此BERT作者设计了“mask策略”的数据修改方
原创
2021-10-18 10:58:09 ·
2841 阅读 ·
0 评论