Attention机制

本文详细介绍了注意力机制在神经网络中的应用,包括引入原因、计算流程、主要变种,尤其是自注意力(self-attention)机制。自注意力解决了卷积和循环神经网络的局限,能捕捉长距离依赖关系,通过动态生成权重处理变长序列。它在Transformer模型中扮演关键角色,允许模型并行计算,提高效率。
摘要由CSDN通过智能技术生成

知乎JayJay的回答:目前主流的attention方法都有哪些?

1. 为什么要引入Attention机制?

根据通用近似定理,前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢?

  • 计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。
  • 优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络中的长距离问题,信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式,例如Attention机制可以提高神经网络处理信息的能力。

2. Attention机制有哪些?(怎么分类?)

当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只选择一些关键的信息输入进行处理,来提高神经网络的效率。按照认知神经学中的注意力,可以总体上分为两类:

  • 聚焦式(focus)注意力:自上而下的有意识的注意力,主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;
  • 显著性(saliency-based)注意力:自下而上的有意识的注意力,被动注意——基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关;可以将max-pooling和门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。

在人工神经网络中,注意力机制一般就特指聚焦式注意力。

3. Attention机制的计算流程是怎样的?

请添加图片描述
Attention机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上,从而计算Attention Value,这个过程实际上是Attention机制缓解神经网络模型复杂度的体现:不需要将所有的N个输入信息都输入到神经网络进行计算,只需要从X中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。

step1-信息输入:用X = [x1, · · · , xN ]表示 N 个输入信息;

step2-注意力分布计算:令Key = Value = X,则可以给出注意力分布
α i = s o f t m a x ( s ( k e y i , q ) ) = s o f t m a x ( s ( X i , q ) ) α_i = softmax(s(key_i, q)) = softmax(s(X_i, q)) αi=softmax(s(keyi,q))=softmax(s(Xi,q))

我们将 α i α_i αi 称之为注意力分布(概率分布), s ( X i , q ) s(X_i, q) s(Xi,q) 为注意力打分机制,有几种打分机制:
请添加图片描述
step3-信息加权平均:注意力分布 [公式] 可以解释为在上下文查询q时,第i个信息受关注的程度,采用一种“软性”的信息选择机制对输入信息X进行编码为:
a t t ( q , X ) = ∑ i = 1 N α i X i att(q,X) = \sum_{i=1}^N α_iX_i att(q,X)=i=1NαiXi

这种编码方式为软性注意力机制(soft Attention),软性注意力机制有两种:普通模式(Key=Value=X)和键值对模式(Key != Value)。

请添加图片描述

总结
  • 输入Q = [x1, · · · , xN],令Q = K = V
  • Q与K进行注意力分布计算 S(Q, K)
  • 对上部权值归一化
  • 用归一化的权值与V加权求和

三个步骤总结到一张图为:
请添加图片描述

4. Attention 机制的变种有哪些?

与普通的Attention机制(上图左)相比,Attention机制有哪些变种呢?

  • 变种1-硬性注意力(hard attention):之前提到的注意力是软性注意力,其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息,叫做硬性注意力。硬性注意力有两种实现方式:(1)一种是选取最高概率的输入信息;(2)另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点:

硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行训练。为了使用反向传播算法,一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。

  • 变种2-键值对注意力:即上图右边的键值对模式,此时Key != Value,注意力函数变为:
    att ⁡ ( ( K , V ) , q ) = ∑ i = 1 N α i v i = ∑ i = 1 N exp ⁡ ( s ( k i , q ) ) ∑ j exp ⁡ ( s ( k j , g ) ) v i \begin{aligned} \operatorname{att}((K, V), \mathbf{q}) &=\sum_{i=1}^{N} \alpha_{i} \mathbf{v}_{i} \\ &=\sum_{i=1}^{N} \frac{\exp \left(s\left(\mathbf{k}_{i}, \mathbf{q}\right)\right)}{\sum_{j} \exp \left(s\left(\mathbf{k}_{j}, \mathbf{g}\right)\right)} \mathbf{v}_{i} \end{aligned} att((K,V),q)=i=1Nαivi=i=1Njexp(s(kj,g))exp(s(ki,q))vi

  • 变种3-多头注意力(multi-head attention):多头注意力是利用多个查询Q = [q1, · · · , qM],来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分,然后再进行拼接:
    att ⁡ ( ( K , V ) , Q ) = att ⁡ ( ( K , V ) , q 1 ) ⊕ ⋯ ⊕ att ⁡ ( ( K , V ) , q M ) \operatorname{att}((K, V), Q)=\operatorname{att}\left((K, V), \mathbf{q}_{1}\right) \oplus \cdots \oplus \operatorname{att}\left((K, V), \mathbf{q}_{M}\right) att((K,V),Q)=att((K,V),q1)att((K,V),qM)

  • 变种4-自注意力(self-attention):接下来仔细介绍self-attention。

5. Self-Attention

(1)卷积或循环神经网络难道不能处理长距离序列吗?
当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列,如图所示:
请添加图片描述

从上图可以看出,无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖

(2)要解决这种短距离依赖的“局部编码”问题,从而对输入序列建立长距离依赖关系,有哪些办法呢?

如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络。

请添加图片描述
由上图可以看出,全连接网络虽然是一种非常直接的建模远距离依赖的模型, 但是无法处理变长的输入序列。不同的输入长度,其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重,这就是自注意力模型(self-attention model)。由于自注意力模型的权重是动态生成的,因此可以处理变长的信息序列。

总体来说,为什么自注意力模型(self-Attention model)如此强大:利用注意力机制来“动态”地生成不同连接的权重,从而处理变长的信息序列。

(3)自注意力模型(self-Attention model)具体的计算流程是怎样的呢?
同样,给出信息输入:用X = [x1, · · · , xN ]表示 N 个输入信息;通过线性变换得到为查询向量序列,键向量序列和值向量序列:
Q = w Q X K = W K X V = W V X \begin{gathered} Q=w_{Q} X \\ K=W_{K} X \\ V=W_{V} X \end{gathered} Q=wQXK=WKXV=WVX

上面的公式可以看出,self-attention中的Q是对自身(self)输入的变换,而在传统的Attention中,Q来自于外部。

self-attention 的基本结构如下图:

请添加图片描述
计算步骤

  • embedding层:
    • 目的:将词转化成embedding向量;
  • Q,K,V 向量计算:
    • 根据 embedding 和权重矩阵,得到Q,K,V;
      • Q:查询向量,目标字作为 Query;
      • K:键向量,其上下文的各个字作为 Key;
      • V:值向量,上下文各个字的 Value;
  • 权重 score 计算:
    • 查询向量 query 点乘 key;
    • 目的:计算其他词对这个词的重要性,也就是权值;
  • scale 操作:
    • 乘以 1 d k \frac{1}{\sqrt d_k} d k1
    • 目的:起到调节作用,使得内积不至于太大。实际上是Q,K,V的最后一个维度,当 dk 越大, QKT 就越大,可能会将 Softmax 函数推入梯度极小的区域;
  • Softmax 归一化:
    • 经过 Softmax 归一化;
  • Attention 的输出计算:
    • 权值 score 和各个上下文字的 V 向量 的加权求和
    • 目的:把上下文各个字的 V 融入目标字的原始 V 中

 Attention  ( Q , K , V ) = softmax ⁡ ( Q K T d k ) V \text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V  Attention (Q,K,V)=softmax(dk QKT)V

具体例子如图:

请添加图片描述
参考资料:
Attention机制详解(二)——Self-Attention与Transformer
动画图解Attention机制,让你一看就明白
【关于Transformer】那些你不知道的事

5.1 为什么会有self-attention?
  • CNN 所存在的长距离依赖问题;
  • RNN 所存在的无法并行化问题【虽然能够在一定长度上缓解 长距离依赖问题】;
  • 传统 Attention
    • 方法:基于源端和目标端的隐向量计算Attention,
    • 结果:源端每个词与目标端每个词间的依赖关系 【源端->目标端】
    • 问题:忽略了 远端或目标端词与词间的依赖关系
5.2 self-attention的核心思想是什么?
  • 核心思想:self-attention的结构在计算每个token时,总是会考虑整个序列其他token的表达;
    • 举例:“我爱中国”这个序列,在计算"我"这个词的时候,不但会考虑词本身的embedding,也同时会考虑其他词对这个词的影响
5.3 self-attention的目的是什么?
  • 目的:学习句子内部的词依赖关系,捕获句子的内部结构。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值