通俗理解注意力机制中的Q、K和V表示的具体含义

最新推荐文章于 2025-04-26 20:59:53 发布

火星种萝卜

最新推荐文章于 2025-04-26 20:59:53 发布

阅读量7.6k

点赞数 12

分类专栏： AI理论

原文链接：https://www.jianshu.com/p/7a61533fd73b

版权

AI理论专栏收录该内容

206 篇文章

订阅专栏

本文通过机器翻译实例，解析Attention机制工作原理。详细介绍了Query、Key、Value概念，并以“I like watching movies”的翻译过程为例，说明如何利用Attention机制提高模型效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://www.jianshu.com/p/7a61533fd73b

通俗理解讲解一

以翻译为例

source:我是中国人
target: I am Chinese

比如翻译目标单词为 I 的时候，Q为I

而source中的 “我” “是” “中国人”都是K，

那么Q就要与每一个source中的K进行对齐（相似度计算）；"I"与"我"的相似度，"I"与"是"的相似度；"I"与"中国人"的相似度；

相似度的值进行归一化后会生成对齐概率值（“I"与source中每个单词的相似度（和为1）），也可以注意力值；

而V代表每个source中输出的context vector；如果为RNN模型的话就是对应的状态向量；即key与value相同；

然后相应的V与相应的P进行加权求和，就得到了context vetor；

从网上找到了一张图更能证明我的理解的正确性；

阶段1中的F函数是一个计算得分的函数；比如可以用前馈神经网络结构进行计算得分：

这里的v与上面的V是不一样的，这属于一个单隐藏层的前馈神经网络；v属于隐藏层激活后的一个计算得分的权重系数矩阵；

w属于激活前的权重系数矩阵；

这里应该是输出神经元为一个得分值；所以需要多个前馈神经网络同时计算每个hi的得分；与我预想的不同，以为一个前馈神经网络就可以输出所有对应的得分，即输出层的维度是与input序列长度一样；（目前的理解）；为什么不与预想的一致呢？

然后对所有得分进行归一化，一般选择softmax方法；让权重系数为1

第二阶段：将hi与对应的权重系数相乘得到一个context vector；即注意力值.

通俗理解讲解二

Q、K、V是什么

[PS：本文谈论的Q、K、V只限于seq2seq结构]

Q：指的是query，相当于decoder的内容
K：指的是key，相当于encoder的内容
V：指的是value，相当于encoder的内容

看到这里，是不是只想直呼卧槽，这什么鬼。不急，先看一个例子

例子

由于讨论的是seq2seq任务，于是来看看机器翻译。
假如我们要将我喜欢看电影翻译成I like watching movies，步骤则会如下

使用一种编码方式(如LSTM、CNN、Transformer等)编码中文
使用一种方式解码
1.机器翻译这个任务中会在解码端给一个开始的标记，如</s>，我们根据这个标记传给解码端，开始生成英文，比如生成了I这个单词，下一步当然是需要生成’like’这个单词，于是这个I将会作为query集去查找，形象话说就是我们需要使用已经有的东西去询问一些事情。
** 2.去哪里查找？当然是编码端，也就是那些可以被查找的信息，如果原文在编码中是字向量表示则是我、喜、欢、看、电、影。
3.找到了返回啥的信息？返回编码端的信息，具体的会将我、喜、欢、看、电、影做一个调整再回传。
到这里，对于使用Attention机制的seq2seq任务，这么理解我认为是没问题的。

参考原文：https://blog.csdn.net/ningyanggege/article/details/89786077和
https://blog.csdn.net/u013887652/article/details/101062567?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1#1

作者：top_小酱油
链接：https://www.jianshu.com/p/7a61533fd73b
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。