大话注意力机制(Attention Mechanism)

注意力机制借鉴人类视觉处理信息的方式,重点集中在关键信息上,提高AI处理效率。在Encoder-Decoder框架中,通过扩展语义表示以体现不同输入的重要性。软注意力模型通过概率分布表示注意力权重,用于翻译等任务,提升模型性能。文章介绍了不同类型的注意力模型及其应用。
摘要由CSDN通过智能技术生成

19fe8116e19f5098b97506b84ecb8ad4ab0.jpg
 当我们人类在看东西时,一般会将注意力集中注视着某个地方,而不会关注全部所有信息。例如当我们一看到下面这张猫的图片时,主要会将目光停留在猫的脸部,以及留意猫的躯干,而后面的草地则会被当成背景忽略掉,也就是说我们在每一处空间位置上的注意力分布是不一样的。
 28ababb66b6ea7f77c6dc3dd5823c515909.jpg
通过这种方式,人类在需要重点关注的目标区域,会投入更多的注意力资源,以获取更多的细节信息,而抑制其它区域信息,这样使人类能够利用有限的注意力资源从大量信息中快速获取到高价值的信息,极大地提升了大脑处理信息的效率。

那么人类的这种“注意力机制”是否可用在AI中呢?
我们来看一下,图片描述(Image Caption)中引入了“注意力机制”后的效果。“图片描述”是深度学习的一个典型应用,即输入一张图片,AI系统根据图片上的内容输出一句描述文字出来。下面看一下“图片描述”的效果,左边是输入原图,下边的句子是AI系统自动生成的描述文字,右边是当AI系统生成划横线单词的时候,对应图片中聚焦的位置区域,如下图:
c98d6d91629345aad06497ec7dc872fa092.jpg 
可以看到,当输出frisbee(飞碟)、dog(狗)等单词时,AI系统会将注意力更多地分配给图片中飞碟、狗的对应位置,以获得更加准确地输出,是不是很神奇呢,这又是如何实现的呢?

1、什么是“注意力机制”
深度学习中的注意力机制(Attention Mechanism)和人类视觉的注意力机制类似,就是在众多信息中把注意力集中放在重要的点上,选出关键信息,而忽略其他不重要的信息。

2、Encoder-Decoder框架(编码-解码框架)
目前大多数的注意力模型附着在Encoder-Decoder框架下,所以我们先来了解下这个框架。Encoder-Decoder框架可以看作是一种文本处理领域的研究模式,该框架的抽象表示如下图:
d4bc9b69e11690381301747f43489f50167.jpg 

注意力机制(self-attention mechanism)是Transformer模型的核心之一,它允许模型在计算表示向量时关注输入序列中的不同部分,以便更好地建模序列之间的依赖关系。 自注意力机制的基本思想是,对于一个输入序列中的每个位置,计算该位置与序列中其他位置的相似度,并将相似度作为权重将这些位置的表示向量进行加权,以生成每个位置的新表示向量。 具体来说,假设输入序列为$x_1,x_2,\cdots,x_n$,每个位置的表示向量为$h_1,h_2,\cdots,h_n$。对于位置$i$,我们可以通过计算该位置与其他位置的相似度得到一个权重向量$w_i$,其中$w_{ij}$表示位置$i$和位置$j$之间的相似度。然后,我们可以将权重向量$w_i$应用于每个位置的表示向量$h_j$,并将加权的值相加,以得到位置$i$的新表示向量$h'_i$: $$h'_i=\sum_{j=1}^n w_{ij}h_j$$ 其中,权重向量$w_i$的计算可以通过先将输入序列中每个位置的表示向量进行线性变换得到查询向量$q_i$、键向量$k_j$和值向量$v_j$,然后计算查询向量$q_i$和键向量$k_j$之间的相似度,并将相似度归一化为概率分布,以得到每个位置的注意力权重。具体来说,权重向量$w_i$的计算公式为: $$w_{ij}=\frac{\exp(q_i\cdot k_j)}{\sum_{k=1}^n \exp(q_i\cdot k_k)}$$ 其中,$\cdot$表示向量之间的点积。 自注意力机制的优点在于,它能够捕捉输入序列中不同部分之间的依赖关系,从而更好地建模序列。此外,它还可以并行计算,因为每个位置的表示向量可以独立地计算。 总之,自注意力机制是一种非常强大的序列建模工具,已经在许多NLP任务中取得了出色的表现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值