1.由于完形填空等任务是可以双向看句子的,因此BERT只采用的transformer的编码器。
2.BERT输入的第一个向量永远是[CLS],后续进行下游任务(如情感分析等)时可以用第一个向量的输出训练一个分类头,其他单词的输出应该就是单词。
3.BERT可以输入两个句子,具体做法是在第二个句子开始前加上【SEP】结尾加上【SEP】,同时去学一个嵌入层和位置信息一起用在输入刚刚嵌入之后进行加和。
4.BERT的预训练方式是将输入的句子中15%的单词替换成[MASK]即掩码,通过预测这个词来训练整个编码器。由于下游任务中是没有[MASK]的,训练和实际测试有点偏差,因此BERT将这选中的15%个单词,有80%的概率变成【MASK】,有10%的概率不变,有10%的概率变成其他随机的一个单词。(一顿操作之后还是有mask啊?)
BERT总结笔记
最新推荐文章于 2023-01-30 16:24:34 发布