注意力机制[矩阵]

最新推荐文章于 2024-09-06 13:39:59 发布

the animal

最新推荐文章于 2024-09-06 13:39:59 发布

阅读量2.3k

点赞数 1

分类专栏：深度学习文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/m0_46312382/article/details/131568257

版权

深度学习专栏收录该内容

23 篇文章

订阅专栏

文章探讨了向量表示中的q,k,v概念，以及它们在注意力机制中的作用。通过权重矩阵Wq,Wk,Wv进行计算，确定查询与线索的匹配度。多头注意力允许处理不同相关性，而在处理长信号如语音时，采用截断自注意力以减少计算量。在图像处理中，每个像素被视为一个向量，利用自注意力进行分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述每一个输入的向量( Embedding后的向量)，均有q,k,v,三个东西。其中q由下图所生成
I矩阵有a1,a2,a3,a4组成，Wq为权重矩阵，将I与Wq相乘求得Q(q1,q2,q3,q4)。K和V与I同理均可求得。

将求得出来的K，转置为竖向量与Q相乘，就可以得出α11，α12…,其中表示的意思就是Query(查询)与线索的重合程度。
在这里插入图片描述上图中A’为a11,a12,a13,a14…经过softmax后的结果。将A‘的第一列，也就是取q1和其他的k1,k2,k3,k4相乘的值，再经过softmax转换后，与vlue值相乘，再相加就得出b1。其中q1和其余的Key，哪一个重合度高，则其在b1中占比也高。
在这里插入图片描述

其中只有Wq,Wk，Wv需要训练。

在这里插入图片描述多头注意力机制，每一个向量可能需要多个head，我们需要不同的q来应对不同种类的相关性。其中q(i,1)与q(i,2)是与两个不同的矩阵，相乘得出的。将 q(i,1)与对应的K(i,1)和K(j,1)相乘，再与V(i,1)和V(j,1)分别相乘，得出b(i,1)和b(i,2),再通过以下转换，输出。
在这里插入图片描述语音讯号非常长，计算量比较大，所以这时候引入truncated self-attention，告诉机器不用看整句话只看一部分，每部分的大小为人为设定的。self-attention在图片上的应用，将以下图片看作一个5103的大小，其中3代表RGB通道为3。将每一个像素看作一个向量。
在这里插入图片描述