bert下游_BERT---容易被忽视的细节

本文深入探讨BERT模型的双向性体现在预训练任务遮蔽语言模型(MLM)中,以及预训练过程的两个任务:MLM和下一句预测(NSP)。在MLM中,15%的词汇被处理,80%替换为[MASK],10%保持不变,10%随机替换,以解决预训练与微调的不匹配问题。
摘要由CSDN通过智能技术生成

最近面试,被问到一些模型的相关细节,所以又重新读了一些论文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  • 论文地址:Bert论文

细节一:Bert的双向体现在什么地方?

Bert可以看作Transformer的encoder部分。Bert模型舍弃了GPT的attention mask。双向主要体现在Bert的预训练任务一:遮蔽语言模型(MLM)。如:

小 明 喜 欢 [MASK] 度 学 习 。

这句话输入到模型中,[MASK]通过attention均结合了左右上下文的信息,这体现了双向

attention是双向的,但GPT通过attention mask达到单向,即:让[MASK]看不到 度 学 习这三个字,只看到上文 小 明 喜 欢 。

细节二:Bert的是怎样预训练的?

预训练任务一:遮蔽语言模型(MLM)

将一句被mask的句子输入Bert模型,对模型输出的矩阵中mask对应位置的向量做分类,标签就是被mask的字在字典中对应的下标。这么讲有点抽象,如图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值