BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding要点总结

原文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - ACL Anthology

翻译参考:论文译文——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_bert英文论文-CSDN博客

要点总结:

1.BERT通过提出新的预训练目标来解决前面提到的单向约束:“masked language model”(MLM)。The masked language model 从输入中随机地mask 掉一些 tokens ,目标是仅基于其上下文来预测被mask掉的单词的原始单词id 。与从左到右(left-to-right)的语言模型预训练不同,MLM目标 允许 representation 去融合左右上下文,这允许我们预训练深度双向Transformer 。

2. 除了masked language model,我们还引入了“下句预测(next sentence prediction)”任务&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值