a
1
a_1
a1和
a
2
a_2
a2这些权值也是根据具体的任务学习出来的。
3 Bidirectional Encoder Representations from Transformers (BERT)
3.1 Base Idea
BERT是transformer的encoder,网络架构是一致的。训练transformer需要输出,但是训练BERT只需要收集句子的数据集,不需要annotation(释文),就可以把这个encoder训练出来。BERT实际做的就是给一个句子,然后每一个词汇给一个embedding。
虽然下图使用的中文的词为单位,但是实际上中文用字要更合适。如果输入要表示为独热码,用词为单位这个独热码的维度几乎是无穷尽的,因为词的组合太多了,而如果用字来表示则会好很多。
3.2 Training of BERT
BERT是怎么训练呢?
-
Masked LM: 第一个训练的方法 随机把一定比