Attention中Q，K，V的作用机制

最新推荐文章于 2025-04-03 15:58:09 发布

Iron_lyk

最新推荐文章于 2025-04-03 15:58:09 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DUDUDUTU/article/details/129283764

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

文章讨论了在模拟考试场景下，softmax函数如何计算Q和K的相关性，以及layernorm在归一化中的作用，防止结果偏差。同时提到注意力机制中key、value和query的角色，并提及自注意力机制的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前提：

要保证：

例子：

一个人去考试，Q代表要考几场，每场考试有几道题；K表示有几个小姐姐可以来抄答案，每个小姐姐擅长每道题的概率；那么Q·K的结果的意义就是这个人在每场考试中抄每个人答案的概率。V中是每个小姐姐对每个题的答案，让刚才得出的结果再乘V，得出的结果就是这个人在每场考试中抄来的每道题的答案。

具体：

是一个常量，不重要。softmax函数内Q和K的转置相乘目的是为了：计算Q和K的相关性。如上图所示，与进行点积，物理意义就是计算两者的相关性，整个Q和K相乘，就得出了一个相关性矩阵。softmax的作用就是把所有相乘之后代表相关性的结果的值，映射到0-1之间。

拓展：

在每次Q和K相乘之前，会做一个layer norm，来对K进行归一化，目的就是将所有值归一化的差不多大小，既可以减少计算量，又可以防止某些例外的发生；

为了防止最后的结果都是从V中抄来的结果，会增加一个add & norm的操作，将Q做一个类似residual的操作，将Q add to 最后的结果中。

注意力机制中，key和value一般是相同的，query不同；自注意力机制中，query，key，value一般是相同的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。