一 自注意力
二 Transformer
每个样本的序列有长有短,如果使用bn造成均值和方差相差较大。所以使用transformer使用ln。
(111条消息) 详解Transformer中Self-Attention以及Multi-Head Attention_霹雳吧啦Wz-CSDN博客_multi-head self-attention
ps:mask层的作用是将在t后面的信息上乘以一个极大的负数,然后做指数时就为零,达到自回归效果。
1.k v q
2.不考虑多头或者投影的话,输出其实就是输入的一个加权和,权重来自于本身和各个向量的一个相似度。如果有多头的话,就有投影,就会学习出h个不一样的距离空间。
注意力汇聚
tranformer与rnn汇聚序列信息方法比较
几个模型比较
小点:
1.output是value的一个加权和。
2.value的权值是由key和query的相似度算来的。
3.有两种注意力机制:1.加型注意力机制 可以处理q k不等长的情况 2.点乘注意力机制 实现简单