BERT总结笔记

1.由于完形填空等任务是可以双向看句子的,因此BERT只采用的transformer的编码器。
2.BERT输入的第一个向量永远是[CLS],后续进行下游任务(如情感分析等)时可以用第一个向量的输出训练一个分类头,其他单词的输出应该就是单词。
3.BERT可以输入两个句子,具体做法是在第二个句子开始前加上【SEP】结尾加上【SEP】,同时去学一个嵌入层和位置信息一起用在输入刚刚嵌入之后进行加和。
4.BERT的预训练方式是将输入的句子中15%的单词替换成[MASK]即掩码,通过预测这个词来训练整个编码器。由于下游任务中是没有[MASK]的,训练和实际测试有点偏差,因此BERT将这选中的15%个单词,有80%的概率变成【MASK】,有10%的概率不变,有10%的概率变成其他随机的一个单词。(一顿操作之后还是有mask啊?)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值