Attention原理简析

最新推荐文章于 2024-08-13 15:43:57 发布

七月听雪

最新推荐文章于 2024-08-13 15:43:57 发布

阅读量835

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_23262411/article/details/99090192

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Attention现在太火了，磨蹭了好几天，终于要动手写写了。。。。

https://mp.weixin.qq.com/s/MzHmvbwxFCaFjmMkjfjeSg

https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html

Attention的发展历史：

Attention一般可以分为三步进行：

score function ：度量环境向量与当前输入向量的相似性；找到当前环境下，应该 focus 哪些输入信息；

alignment function ：计算 attention weight，通常都使用 softmax 进行归一化；

generate context vector function ：根据 attention weight，得到输出向量；

这个过程可以用下面的图来表示，输入 c（context，有的论文写s），y（input，有的地方也写作 h），输出 z。

自此之后，要认清一个 attention 的详情，只需要搞清楚这三个部分，所有的变换都是在3个位置进行调整，当然变化最丰富的是 score function。就是说Attention是一种框架，它的内部细节不是一成不变的。

另一种理解的方式是 QKV 模型：假设输入为 q，Memory 中以（k，v）形式存储需要的上下文。

以Q&A 任务举例：k 是 question，v 是 answer，q 是新来的 question，看看历史 memory 中 q 和哪个 k 更相似，然后根据相似 k 对应的 v，合成当前 question 的 answer。

Framework：

如下图，通常听到的一些 attention，他们的差异其实主要体现在 score-function 层面，其次是体现在 generate context vector function 的层面。

generate context vector function

hard / soft attention 是在文章《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》提出的概念，最直观的一种理解是，hard attention 是一个随机采样，采样集合是输入向量的集合，采样的概率分布是alignment function 产出的 attention weight。因此，hard attention 的输出是某一个特定的输入向量。soft attention 是一个带权求和的过程，求和集合是输入向量的集合，对应权重是 alignment function 产出的 attention weight。hard / soft attention 中，soft attention 是更常用的（后文提及的所有 attention 都在这个范畴），因为它可导，可直接嵌入到模型中进行训练，hard attention 文中 suggests a Monte Carlo based sampling approximation of gradient。

alignment function

在 soft attention 中，又划分了 global/local attention（In this paper ：《Effective Approaches to Attention-based Neural Machine Translation》）。

直观理解就是带权求和的集合不一样，global attention 是所有输入向量作为加权集合，使用 softmax 作为 alignment function，local 是部分输入向量才能进入这个池子。为什么用 local，背后逻辑是要减小噪音，进一步缩小重点关注区域。接下来的问题就是，怎么确定这个 local 范围？文中提了两个方案 local-m 和 local-p。local-m 基于的假设生硬简单，就直接 pass了。local-p 有一个预估操作，预计当前时刻应该关注输入序列（总长度为S）的什么位置 pt（引入了两个参数向量，vp，wp），然后在 alignment function 中做了一点儿调整，在 softmax 算出来的attention wieght 的基础上，加了一个以 pt 为中心的高斯分布来调整 alignment 的结果。

作者最后阐述 local-p + general（score-function 参考上图中multiplicative attention 中的 general 版本）的方式效果是最好的。但从global/local 视角的分类来看，更常用的依然还是 global attention，因为复杂化的local attention 带来的效果增益感觉并不大。

score-function

如何生成输出向量，有上面提及的那些变换。接下来是变化更加丰富的 score function。最为常用的 score function 有上文图中的那几种（基本全乎了吧）。其实本质就是度量两个向量的相似度。如果两个向量在同一个空间，那么可以使用 dot 点乘方式（或者 scaled dot product，scaled 背后的原因是为了减小数值，softmax 的梯度大一些，学得更快一些），简单好使。如果不在同一个空间，需要一些变换（在一个空间也可以变换），additive 对输入分别进行线性变换后然后相加，multiplicative 是直接通过矩阵乘法来变换（你是不是也曾迷惑过为什么attention 要叫做 additive 和 multiplicative attention？）。

我们介绍几个具有代表性的 attention，通过具体的 attention example 来进一步理解。以及一些花样 attention，看大家都怎样变着法儿用 attention。

Bahdanau Attention & Luong Attention

在对比之中，认知更清晰，一图表达所有。这两个 Attention 就是整个 Attention 的奠基之作。Tensorflow 中实现了这两种 Attention 的 API。

Self Attention & Multi-head Attention

why self attention ?

RNN 的长距离依赖比较 tricky：RNN 很强大（可以作为 encoder 对长度任意的序列进行特征抽取，基于特征抽取的能力可以胜任分类任务，另一方面可以作为Generators 学习 Language Model），其实核心就是长距离依赖（gate architectures - 线性操作让信息可以保持并流动，并选择性地让信息通过），可以对长度任意的序列进行表达，但是这种方式还是比较 tricky。并且这种序列建模方式，无法对具有层次结构的信息进行很好的表达。

RNN 由于递归的本质，导致无法并行。

CNN 在 NLP 中扮演了 n-gram 的 detector 角色，在层内可以并行。CNN works well，基于的假设是局部信息相互依赖。CNN 具有 Hierarchical Receptive Field，使得任意任意两个位置之间的长度距离是对数级别的。

相对于 CNN，要 constant path length 不要 logarithmic path length , 要 variable-sized perceptive field，不要固定 size 的 perceptive field；
相对于 RNN，考虑长距离依赖，还要可以并行！

这就是 self attention。下图可以看到 self-attention 和 convolution 有点儿神似，它摒弃了 CNN 的局部假设，想要寻找长距离的关联依赖。看下图就可以理解 self-attention 的这几个特点：

constant path length & variable-sized perceptive field ：任意两个位置（特指远距离）的关联不再需要通过 Hierarchical perceptive field 的方式，它的 perceptive field 是整个句子，所以任意两个位置建立关联是常数时间内的。
parallelize : 没有了递归的限制，就像 CNN 一样可以在每一层内实现并行。

self-attention 借鉴 CNN中 multi-kernel 的思想，进一步进化成为 Multi-Head attention。每一个不同的 head 使用不同的线性变换，学习不同的 relationship。

what is self-attention？

下图是完整版本的 multi-head attention 的示例图。这是基于上文中提及了 QKV 的 memory-based 的建模方式。需要说明的几个点：

1. QKV 都是对输入 x 的线性映射。
2. score-function 使用 scaled-dot product。
3. multihead 的方式将多个 head 的输出 z，进行 concat 后，通过线性变换得到最后的输出 z。

transformer 框架中 self-attention 本身是一个很大的创新，另一个有意思的是 three ways of attention 的设计。attention weight 一列以英译中，encoder 输入machine learning，decoder 输入机器学习。

Encoder self-attention：Encoder 阶段捕获当前 word 和其他输入词的关联；
MaskedDecoder self-attention ：Decoder 阶段捕获当前 word 与已经看到的解码词之间的关联，从矩阵上直观来看就是一个带有 mask 的三角矩阵；
Encoder-Decoder Attention：就是将 Decoder 和 Encoder 输入建立联系，和之前那些普通 Attention 一样；