简单有效的注意力机制

注意力机制在深度学习中用于解决时序模型的上下文问题,简化长期依赖的上下文处理,通过线性加权上下文源序列特征来表征目标位置特征。文章介绍了global/local Attention、additive Attention、self Attention和Multi-Head Attention,强调self Attention的重要性,并举例说明其在Transformer中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

本能

想解决什么问题?

global/local Attention

additive Attention

self Attention

Multi-Head Attention

应用案例


本能

在认知神经学中,注意力是一种人类不可或缺的复杂认知功能,指人可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中,我们通过视觉、听觉、触觉等方式接收大量的感觉输入。但是我们的人脑可以在这些外界的信息轰炸中还能有条不紊地工作,是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理,并忽略其他信息。这种能力就叫做注意力
------ 摘自《百度百科》

想解决什么问题?

深度神经网络中引入注意力机制,主要想解决时序模型中的上下文问题。

RNN是时序建模的一个最常见的方法,RNN通过形如f(f(f(x)))的递归形式顺序表达序列。
RNN存在梯度爆炸、梯度消失的问题,对于长期依赖的上下文情况比较吃力;同时串行计算,尤其是当序列很长时,导致训练时间复杂度高。

Attention意图非常简单,尝试简化上下文问题,直接显式建立与相关位置的关系。
在深度学习中,直接的输入一般是原始文本、图片等信息,这里的上下文关系一般是基于初步提取(比如embedding)之后的特征,理论上,并不限制具体输入。

注意力机制就是通过线性加权上下文源序列的特征来表征目标位置的特征。

是的,就是如此原始,如此简单。
眼花缭乱的各种形式只是在表达

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值