电脑配置:Anaconda3 + Pycharm
文章目录
- transformer的原理
- 预训练语言模型(Bert)的词表示
- 待补充 太难了
高永伟预训练语言模型BERT视频讲解笔记。
句子A和句子B是两个挨着的句子,有紧密的上下文关系。因此,在下一句预测任务中,该句子对可以标记为True
segment embeddings 句子A和句子B 要再表征的过程中体现出这是两个句子。句子A和句子B可能不是一个连续的句子对。这一部分是为了后续下一句预测任务做准备。常见的表达式
E
A
E_{A}
EA =1,
E
B
E_{B}
EB =1,这样segment embedding就是一个0-1向量
query矩阵的第一行代表第一个word
w
11
w_{11}
w11表示第一个单词放在第一个位置的可能性
w
1
F
w_{1F}
w1F表示第一个单词放在第F个位置的可能性
论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文 Transformer: Attention Is All You Need