这里写目录标题
序言
seq2seq2 Model从14年提出,到19年google提出的transformer成为主流印象。一般包括Encoder和Decoder两个部分。
总体结构
Encoder
总体来说:输入一个vector,输出一个vector(RNN,CNN,Self-Attention都可以做到)
Encoder的简单示例
每一个Block是多个layer连接,如这里面的一个Block经过一个自注意力和FC层
transformer中的Encoder(一层)
Decoder
全局总览
主要分为NT(输出的再作为输入)和NAT(一起输出)
表中有个END符号表示输入该结束了。
Begin可能是随机一个One-hot向量吧,每个输入都是One-hot向量形式。
Masked Multi-Head Attention
特点:产生
b
i
b^i
bi只考虑
a
1
a^1
a1到
a
i
a^i
ai的输入。
原因:因为Decoder中输入是一个一个产生的。
Cross Attention(Encoder和Decoder的互动)
这一块就是Cross Attention
Cross Attention内部实现