【Transformer】
主要是学习illustrated-transformer和李宏毅老师的transformer讲解。
Attention Is All You Need中提出了Transformer。
以往以RNN为基础的seq2seq模型不利于并行计算,而CNN可以并行,但同时又不能很好的捕捉整个输入序列的信息(高层的filter才能能考虑到更长的序列),而Transformer实质上是一堆矩阵运算很容易进行并行运算并且可以捕捉整个句子的信息。
word embedding
Encoder
主要有两个部件组成:self-attention和feed forward。
self-attention
self-attenion的作用是将对于其他单词的理解融入到我们当前处理的单词中。
拿一个单词来举例:
step 1:如图所示,将embedding后的每个输入单词(大小为1x512)同乘以三个矩阵(大小为512x64)分别变为三个新的向量(大小为1x64)。
query : 用于匹配其他单词的key
key : 被其他单词的query匹