机器学习中的自注意力（Self Attention）机制详解

最新推荐文章于 2024-06-24 17:17:19 发布

I am zzxn

最新推荐文章于 2024-06-24 17:17:19 发布

阅读量1.3w

点赞数 6

分类专栏：机器学习文章标签：机器学习深度学习注意力机制自注意力 Self Attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39438086/article/details/103107545

版权

机器学习中的自注意力（Self Attention）机制详解

2020/6/18更新：

之前写的有点误人子弟，只看了几个代码就把特殊当一般了，还是推荐阅读复旦大学邱锡鹏老师的《神经网络与机器学习》一书中关于注意力机制的解释。
本想把自己论文中关于注意力机制的解释放在这里的，但担心查重出现问题，还是不放了。
笔记：所谓的自注意力机制的“自”指的是一组信息中每个信息和整组信息求注意力，也就是整组信息自己和自己求注意力，可以看作一种动态的全连接层。

旧文：

自注意力公式如下：

$\omega(QK^T)V$

其中 $A t t (Q, K, V)$ 是得到的注意力的值， $Q$ 、 $K$ 、 $V$ 分别是查询向量（Query Vector）矩阵、键向量（Key Vector）矩阵和值向量（Value Vector）矩阵，这三个矩阵中每一行分别代表一个对应的向量。 $Q$ 、 $K$ 、 $V$ 一般通过把输入序列 $X$ 分别乘以三个矩阵 $W^q$ 、 $W^k$ 、 $W^v$

最低0.47元/天解锁文章

关注

6
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的自注意力（Self Attention）机制详解

机器学习中的自注意力（Self Attention）机制详解自注意力公式如下：Att(Q,K,V)=ω(QKT)V Att(Q, K, V) = \omega(QK^T)V Att(Q,K,V)=ω(QKT)V其中Att(Q,K,V)Att(Q, K, V)Att(Q,K,V)是得到的注意力的值，QQQ、KKK、VVV分别是查询向量（Query Vector）矩阵、键向量（Key Vecto...
复制链接

扫一扫

专栏目录

I am zzxn CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

32万+: 周排名

221万+: 总排名

9万+: 访问

: 等级

1079: 积分

13: 粉丝

84: 获赞

38: 评论

266: 收藏

私信

关注

热门文章

分类专栏

杂项 15篇
机器学习 9篇
NLP 3篇
Java 3篇
人生感悟 1篇
算法 14篇
Angular
系统 4篇
Spring 2篇
HTML5 1篇
WebGL

最新评论

（多头）自注意力机制的PyTorch实现
剛田武: 正常的话x输入不应该是（batch_size,dim,length）吗？代码里写的顺序不太一样不过这个倒无所谓就是得变下输入顺序
（多头）自注意力机制的PyTorch实现
希望自己能一直努力: 单独算也没有区别吧
（多头）自注意力机制的PyTorch实现
We are: 请问这个dim_in具体指的是什么那？是每个样本的特征维度嘛？
（多头）自注意力机制的PyTorch实现
studyga1: 您好，咨询一下。torch.matmul(q, k.transpose(2, 3)) * self._norm_fact 是q与每一个k相乘吗？
（多头）自注意力机制的PyTorch实现
studyga1: 我也是才学，应该传的都是同样的值，应该就是d_model吧，然后在forward函数里d_model// num_head了就变成DK,DV,DQ了。d_model就是你要传入的变量的最后一个维度。有什么不对的可以指正，谢谢。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。