自注意力（self-attention）

转载已于 2023-03-11 15:31:10 修改 · 2.2k 阅读

9 ·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/505105707

文章标签：

#深度学习 #人工智能

于 2023-03-08 19:49:43 首次发布

深度学习专栏收录该内容

3 篇文章

订阅专栏

注意力机制通过Q、K、V三个概念来工作，其中Q代表查询，K代表键，V代表值。权重矩阵Wq、Wk、Wv用于处理输入向量。点积用于计算Q和K的关联度，Soft-max激活函数用于规范化注意力权重。最后，这些权重用于加权输入特征，形成输出。

小trick：注意力中最主要的是有q,k,v三个概念；并且对于普通的自注意力来说要求的就是Wq，Wk，Wv三个可学习参数，对于多头注意力就是有多组这种参数。

q相当于自己，k相当于别人，v相当于知道与别人关系的自己；结果是权重矩阵

关于提特征：输入向量和对应的权重矩阵进行点积，类似于卷积操作中，矩阵和卷积核进行点积，因此，相类似，是一种提取特征的过程。

对于自注意力来说，其输入是一个token，是一维向量，一维向量和权重矩阵进行点积；即使是彩色图像（3维），其对应的也是一个token（vector）；

在注意力机制中，输入可以是一维向量，也可以是多维特征图。对于输入特征图，注意力机制通常会先将其压缩成一维向量，再进行权重计算，最终将权重应用到输入特征图上。因此，可以说在注意力机制中输入可以是一维向量，也可以是多维特征图，而输出通常是权重矩阵，用于加权输入特征图的不同通道或空间位置的特征。

注意力机制的权重计算是通过输入的特征图（可以是一维向量或多维特征图）中每个通道或空间位置的信息来计算的，因此可以说是向量内各个元素之间的关系。在计算注意力权重时，通常需要先对输入特征图中的每个通道或空间位置进行一定的变换（如全连接层或卷积层），得到一个向量表示该通道或位置的信息。然后，这些向量通过一定的计算方式（如点积、加权和等）生成注意力权重，用于加权输入特征图的不同通道或空间位置的特征。因此，可以说注意力机制的权重计算是基于向量内各个元素之间的关系。

在注意力机制的运算中，通常不会显式地改变特征图的大小或维度。注意力机制通常是在原始特征图上计算权重，然后将这些权重应用于特征图中的每个位置或通道。这些权重本质上是一个与特征图大小和维度相同的张量，所以它们不会改变特征图的大小或维度。

在某些情况下，注意力机制可能会使用类似于卷积操作的方法来计算权重，这种操作可能会改变特征图的大小或维度。例如，Self-Attention机制就可以通过矩阵乘法来计算注意力权重，这可能会将一个维度较高的特征图转化为另一个维度较高的特征图。然而，这种情况并不常见，因为通常在应用注意力机制时，我们只是在原始特征图上计算注意力权重，并将它们应用于相同大小和维度的特征图上。

对于当前的输入向量，我们称之为 query，它对应有 Wq 这个权重矩阵，query 的值为权重矩阵乘以输入向量，也就是 qi=Wq·ai 。
而 query 外的其他的输入向量，则被被成为 key，其对应有 Wk 这个权重向量，key 的值为权重矩阵乘以这个其它输入向量，也就是 ki=Wk·aj（j可能等于i）

权重