【深度学习】Attention注意力机制的公式解析

烟锁池塘柳0

已于 2025-03-24 20:49:11 修改

阅读量1.2k

点赞数 5

分类专栏：机器学习与深度学习文章标签：自然语言处理深度学习人工智能

于 2025-01-10 21:12:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zlyzjiabjw547479/article/details/145065379

版权

机器学习与深度学习专栏收录该内容

20 篇文章

订阅专栏

文章目录

Attention注意力机制的公式解析

Attention注意力机制的公式解析

P.S. 关于Self-Attention（自注意力机制）的更详细信息，可以看我的这一篇文章：Self-Attention机制详解：Transformer的核心引擎。

一、基本形式

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d}})V$

二、组成部分解释

输入参数：
- Q (Query): 查询矩阵
- K (Key): 键矩阵
- V (Value): 值矩阵
- d: 键向量的维度
计算步骤：

a. 计算注意力分数：
$\frac{QK^T}{\sqrt{d}}$
- 将Q与K的转置相乘
- 除以缩放因子 $\sqrt{d}$ 以防止梯度消失
b. 归一化：
$softmax(\frac{QK^T}{\sqrt{d}})$
- 使用softmax函数将分数转换为概率分布（关于softmax函数的相关信息可以参见：Softmax 函数详解）
- 确保所有权重和为1
c. 加权求和：
- 将归一化后的权重与V相乘
- 得到最终的注意力输出

三、作用机制

相关性计算：
- $QK^T$ 计算查询和键之间的相关性
- 高相关性会得到更大的权重
缩放处理：
- $\sqrt{d}$ 用于缩放点积结果
- 防止维度d较大时softmax函数梯度消失
权重分配：
- softmax确保权重为正且和为1
- 实现对不同位置信息的软性选择

四、应用价值

信息筛选：
- 自动识别重要信息
- 忽略不相关信息
长距离依赖：
- 捕捉序列中的长距离依赖关系
- 克服传统RNN的局限性
并行计算：
- 支持并行处理
- 提高计算效率

烟锁池塘柳0

博客等级

码龄2年

86
原创

1581
点赞

1420
收藏

1997
粉丝

关注

私信

热门文章

分类专栏

最新评论

查看 Linux 系统中安装的 CUDA 版本
烟锁池塘柳0: 抱歉，我没有遇到过这样的问题呢但是根据你提供的报错信息来看是你的NVIDIA的驱动（就是你说的报错信息中的NVIDIA driver）的问题，首先你可以确认一下自己的电脑上有NVIDIA的显卡吗？这个可以通过电脑的“任务管理器-性能”来查看。如果确定你的电脑上有NVIDIA的显卡，你可以去重新安装一下你的NVIDIA驱动，官方网站为：https://www.nvidia.cn/geforce/drivers/，安装的时候可以去搜索相关教程跟着一步步安装。希望这对你有所帮助，祝你能够顺利解决问题！
【数学建模】（时间序列模型）ARIMA时间序列模型
烟锁池塘柳0: 确定差分阶数（d）：ADF检验（Augmented Dickey-Fuller Test）、KPSS检验、观察ACF图或者使用经验法则；确定自回归阶数（p）和移动平均阶数（q）：在平稳序列上，通过以下方法确定p和q：观察自相关（ACF）和偏自相关（PACF）图，或者使用经验、自动化工具（调用R的forecast包或者Python库等）。
Windows文件资源管理器左侧导航窗格没有WSL的Linux图标的解决方法
烟锁池塘柳0: 收到！已经在正文中更正，感谢你的提醒！
【数学建模】主成分分析（PCA）算法在数学建模中的应用
烟锁池塘柳0: 可以考虑基于方差贡献率选择主成分、基于特征值大小选择主成分、交叉验证法等。
Windows文件资源管理器左侧导航窗格没有WSL的Linux图标的解决方法
有朋自远方来，不亦乐乎: 是输入\\wsl$，不是//wsl$

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。