【Self Attention】自注意力机制

qq_1532145264

已于 2024-08-22 10:24:25 修改

阅读量691

点赞数 15

分类专栏：机器学习文章标签：机器学习人工智能深度学习 transformer 神经网络语言模型

于 2024-08-12 14:35:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_1532145264/article/details/141060305

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

借鉴人类视觉注意力，深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

在这里插入图片描述

Attention

虽然 LSTM 有效的解决了 RNN 存在的序列长距离依赖问题，但是对于过长的序列，LSTM 也会失效。而 Attention 机制可以更加好的解决序列长距离依赖问题，并且具有并行计算能力。

注意力模型通过 Query 这个信息从 Values(key-value pairs) 中筛选出重要信息，简单点说，就是计算 Query 和 Values 中每个信息的相关程度。
在这里插入图片描述

第一阶段，计算比较 Q 和 K 的相似度，一般是使用点乘（Transformer 使用）。
第二阶段，将得到的相似度进行 softmax 操作，进行归一化。
第三阶段，针对计算出来的权重，对 V 中的所有 values 进行加权求和计算，得到 Attention 向量。

注意力Attention机制的最核心的公式为：

$\frac {QK^{T}} { \sqrt{d_k}})V$

向量点乘的几何意义是：向量 X 在向量 Y 方向上的投影再与向量 Y 的乘积，能够反应两个向量的相似度。向量点乘结果大，两个向量越相似。

以词向量矩阵为例，这个矩阵中，每行为一个词的词向量。矩阵与自身的转置相乘，生成了目标矩阵，目标矩阵其实就是一个词的词向量与各个词的词向量的相似度。

在这里插入图片描述

在这个基础上，再进一步将得到的归一化的权重矩阵与词向量矩阵相乘。

在这里插入图片描述

Self Attention

Self Attention 模型的架构如下图所示：

在这里插入图片描述

其中对于 Self Attention 模型中输入的 Q(Query)、K(Key)、V(Value)，来自句子 X 的词向量与给定三个可学习的矩阵参数 $W^{Q}, W^{K}, W^{V}$ 的乘积。

$Q=XW^{Q}$
$K=XW^{K}$
$V=XW^{V}$

在这里插入图片描述

[REFERENCE]
从人脑到Transformer：轻松理解注意力机制中的QKV
注意力机制到底在做什么，Q/K/V怎么来的？一文读懂Attention注意力机制

关注

15
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qq_1532145264 CSDN认证博客专家 CSDN认证企业博客

码龄2年

91: 原创

2万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1338: 积分

343: 粉丝

414: 获赞

22: 评论

800: 收藏

私信

关注

热门文章

分类专栏

产品经理 2篇
机器学习 20篇
算法
Java 10篇
数据库 4篇
Web 4篇
数据分析 3篇
Linux 1篇
小程序
软件测试 1篇
Matlab 1篇
English 2篇
计算机基础知识（考研408） 5篇
数学 2篇
阅读书籍 25篇
科技财经 1篇
感悟 4篇
运动 1篇
社交
其他 6篇

最新评论

有点意思的求学之路
rYu1nser: 学长上岸到哪里了呀
基于MATLAB车牌识别系统设计
我不想再敲啦: 哥，你给的代码下载下来咋用啊
计算机基础知识（考研408）——操作系统
小心小心vx: 请问可以求一份文档吗？发到邮箱可以吗？349338829@qq.com，可以小偿！！
Python数据可视化第三方库pyecharts
CSDN-Ada助手: 恭喜您发布了第15篇博客！看到您对Python数据可视化第三方库pyecharts的深入探讨，我感到非常佩服。希望您能继续保持创作的热情和耐心，不断分享您的经验和见解。下一步，我建议您可以尝试结合实际案例，深入分析pyecharts在数据可视化中的应用，这样可以让读者更直观地理解pyecharts的强大之处。期待您更多的精彩内容，加油！
基于Python的城市招聘信息爬取和分析
CSDN-Ada助手: 恭喜作者在技术领域的深度探索，第16篇博客内容丰富，对Python的应用有着深入的研究和实践。希望作者能够继续保持创作的热情，不断分享自己的学习和实践经验。或许下一步可以考虑分享一些实际案例或者应用场景，让读者更好地理解Python在城市招聘信息爬取和分析中的具体应用。期待作者更多精彩的创作！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。