注意力机制 #博学谷IT学习技术支持#

qq_27930237

于 2022-09-08 19:06:09 发布

阅读量517

点赞数

分类专栏： NLP 注意力机制文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27930237/article/details/125756041

版权

本文详细介绍了注意力机制的计算规则，包括三种计算规则，并解析了注意力机制的流程。特别地，深入探讨了自注意力机制，解释了为何在self-attention中使用(Q, K, V)三元组，以及自注意力机制与普通注意力机制的区别，如关注度的侧重、应用位置及对输入数据的关系处理。" 110001693,9141608,理解凯撒密码：原理、加密与破解,"['信息安全', '密码学']

摘要由CSDN通过智能技术生成

目录

一、注意力计算规则

二注意力的三种计算规则

三注意力机制流程

四自注意力机制

五注意力机制与自注意力机制的区别

一、注意力计算规则

他需要三个指定的输入query，key，value，然后通过计算公式得到注意力的结果。这个结果代表query在key和value作用下的注意力表示，当q=k=v时，称作自注意力计算规则。

关于self-attention为什么要使用(Q, K, V)三元组而不是其他形式:

首先一条就是从分析的角度看, 查询Query是一条独立的序列信息, 通过关键词Key的提示作用, 得到最终语义的真实值Value表达, 数学意义更充分, 完备.
这里不使用(K, V)或者(V)没有什么必须的理由, 也没有相关的论文来严格阐述比较试验的结果差异, 所以可以作为开放性问题未来去探索, 只要明确在经典self-attention实现中用的是三元组就好.

二注意力的三种计算规则

三注意力机制流程

1 首先把q和k，在列这一维度，做拼接。然后进入线性层。在经过softmax 输出ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力机制 #博学谷IT学习技术支持#

因为q=k=v，假设q是4×5的张量，先计算qx k的转置，得到wij'矩阵，也就是输入张量和输入张量之间相似度的矩阵，此时的矩阵的值是在负无穷到正无穷之间。得到wij矩阵，再用wij矩阵，乘以v，等到最后的输出张量矩阵。他需要三个指定的输入query，key，value，然后通过计算公式得到注意力的结果。1 注意力权重的计算方法不同，注意力机制对输入的关注度是平等的，而自注意力机制对输入的关注度是有侧重的。4 注意力机制，关注整体和部分之间的关系，自注意力机制，关注整体之间的关系。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。