简单有效的注意力机制

布谷AI

于 2020-06-26 23:17:43 发布

阅读量643

点赞数

分类专栏：深度学习文章标签： Attention 注意力机制深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huibiannihao/article/details/106976466

版权

注意力机制在深度学习中用于解决时序模型的上下文问题，简化长期依赖的上下文处理，通过线性加权上下文源序列特征来表征目标位置特征。文章介绍了global/local Attention、additive Attention、self Attention和Multi-Head Attention，强调self Attention的重要性，并举例说明其在Transformer中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

想解决什么问题？

global/local Attention

additive Attention

Multi-Head Attention

本能

在认知神经学中，注意力是一种人类不可或缺的复杂认知功能，指人可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中，我们通过视觉、听觉、触觉等方式接收大量的感觉输入。但是我们的人脑可以在这些外界的信息轰炸中还能有条不紊地工作，是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理，并忽略其他信息。这种能力就叫做注意力。
------ 摘自《百度百科》

想解决什么问题？

深度神经网络中引入注意力机制，主要想解决时序模型中的上下文问题。

RNN是时序建模的一个最常见的方法，RNN通过形如f(f(f(x)))的递归形式顺序表达序列。
RNN存在梯度爆炸、梯度消失的问题，对于长期依赖的上下文情况比较吃力；同时串行计算，尤其是当序列很长时，导致训练时间复杂度高。

Attention意图非常简单，尝试简化上下文问题，直接显式建立与相关位置的关系。
在深度学习中，直接的输入一般是原始文本、图片等信息，这里的上下文关系一般是基于初步提取(比如embedding)之后的特征，理论上，并不限制具体输入。

注意力机制就是通过线性加权上下文源序列的特征来表征目标位置的特征。

是的，就是如此原始，如此简单。
眼花缭乱的各种形式只是在表达选

最低0.47元/天解锁文章

博客等级

码龄14年

43
原创

136
点赞

385
收藏

28
粉丝

关注

私信

热门文章

分类专栏

R 3篇
ggplot2
Python 8篇
机器学习 1篇
linux 8篇
强化学习 13篇
PaddlePaddle
H2O-3
深度学习 9篇
Shiny 2篇
Neo4J 6篇

最新评论

并行强化学习算法：A2C/A3C
weixin_44824820: 博主好，请问我用a3c在训练时效果很好，但测试时效果则达不到，而且有一些差距，lr调的也不是很低，可能是啥原因呢
强化学习优势函数(Advantage Function)
xioabaiya: 您好，为什么使用优势函数可以减少方差呢？
并行强化学习算法：A2C/A3C
Snoopy9797: A2C所有Agent的动作一样，并且都是从全局网络更新参数，那他所有的Agent不是一样了吗？
强化学习优势函数(Advantage Function)
醉此江湖: DRL中，Gamma理论上来说不能等于1，因为无法预估无限长度的步骤，只有预估有限长度未来奖励的期望
Python dict字典排序
程序猿学长: 不错。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。