Attention

最新推荐文章于 2025-05-12 16:43:29 发布

qq_38056367

最新推荐文章于 2025-05-12 16:43:29 发布

阅读量583

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_38056367/article/details/108797880

版权

1 篇文章

订阅专栏

Attention对比RNN和CNN，分别有哪点你觉得的优势？

增加了position Embedding

可以直接随机初始化
也可以参考Google的sin/cos位置初始化方法
- 如此选取的原因之一是sin(a+b)=sin(a)cos(b)+cos(a)sin(b)。这很好的保证了位置p+k可以表示成p的线性变换，相对位置可解释

q和k对齐了解码端和编码端的信息相似度，相似度的值进行归一化后会生成对齐概率值（注意力值）。V对应的是encoder的内容，刚说了attention是对encoder对重编码，qk完成权重重新计算，v复制重编码

seq2seq最大的问题在于将Encoder端的所有信息压缩到一个固定长度的向量中，并将其作为Decoder端首个隐藏状态的输入，来预测Decoder端第一个单词(token)的隐藏状态。在输入序列比较长的时候，这样做显然会损失Encoder端的很多信息，而且这样一股脑的把该固定向量送入Decoder端，Decoder端不能够关注到其想要关注的信息
self-attention让源序列和目标序列首先“自关联”起来，这样的话，源序列和目标序列自身的embedding表示所蕴含的信息更加丰富，而且后续的FFN层也增强了模型的表达能力，并且Transformer并行计算的能力是远远超过seq2seq系列的模型

假设向量 q 和 k 的各个分量是互相独立的随机变量，均值是0，方差是1，那么点积 qk 的均值是0，方差是 dk
针对Q和K中的每一维i都有qi和ki相互独立且均值0方差1，不妨记,
- E(XY) = E(X)E(Y)=0
- 所以k维度上的qk方差会为dk，均值为0，用维度的根号来放缩，使得标准化