（转载）注意力机制中的Q、K和V的意义

Activewaste

于 2021-06-01 22:12:18 发布

阅读量6.7k

点赞数 4

分类专栏： Transformer

原文链接：https://blog.csdn.net/ningyanggege/article/details/89786077

版权

Transformer 专栏收录该内容

2 篇文章

订阅专栏

看到一篇解释，感觉还不错，后面深入理解了再来重新编辑一波

其他好文章

《Attention Is All You Need》注意力机制公式中Q,K,V的理解

以翻译为例：

source:我是中国人

target: I am Chinese

比如翻译目标单词为 I 的时候，Q为I

而source中的 “我” “是” “中国人”都是K，

那么Q就要与每一个source中的K进行对齐（相似度计算）；"I"与"我"的相似度，"I"与"是"的相似度；"I"与"中国人"的相似度；

相似度的值进行归一化后会生成对齐概率值（“I"与source中每个单词的相似度（和为1）），也可以注意力值；

而V代表每个source中输出的context vector；如果为RNN模型的话就是对应的状态向量；即key与value相同；

然后相应的V与相应的P进行加权求和，就得到了context vetor；

从网上找到了一张图更能证明我的理解的正确性；

阶段1中的F函数是一个计算得分的函数；比如可以用前馈神经网络结构进行计算得分：

在这里插入图片描述

这里的v与上面的V是不一样的，这属于一个单隐藏层的前馈神经网络；v属于隐藏层激活后的一个计算得分的权重系数矩阵；

w属于激活前的权重系数矩阵；

这里应该是输出神经元为一个得分值；所以需要多个前馈神经网络同时计算每个hi的得分；与我预想的不同，以为一个前馈神经网络就可以输出所有对应的得分，即输出层的维度是与input序列长度一样；（目前的理解）；为什么不与预想的一致呢？

然后对所有得分进行归一化，一般选择softmax方法；让权重系数为1

第二阶段：将hi与对应的权重系数相乘得到一个context vector；即注意力值；

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。