Attention Model详细总结——从RNN到Transformer

最新推荐文章于 2024-06-05 21:59:59 发布

桑戈塔的七菇凉

最新推荐文章于 2024-06-05 21:59:59 发布

阅读量1k

点赞数 2

分类专栏：论文笔记文章标签：神经网络机器学习机器翻译人工智能

本文链接：https://blog.csdn.net/weixin_40607428/article/details/105676746

版权

论文笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

前言
1. 从CNN到RNN
2. 从RNN到Attention
- 2.1 基于RNN的Attention-based Model
- 2.2 Self-Attention Layer
3. 从Attention到Transformer

前言

之前读了引用率超高的《Attention is All You Need》这篇论文，结合网上一些对论文的解读囫囵吞枣式捋了一遍方法思路，以为自己已经get得差不多了。然鹅！跟师兄汇报的时候又被灵魂拷问。。。（羞愧.jpg）
是我太年轻惹！完全没有领悟读paper的精髓，它引用率达到七千多次难道会是一篇平平无奇的文章嘛！
于是我又四处扒拉相关的讲解，再读了几遍文章，把看到的凌乱知识点汇总到一起，重新梳理一下从RNN到Transformer的历程。

主要参考：
https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w
（上次参考的对attention is all you need的解读，讲得很好）
https://www.bilibili.com/video/BV1JE411g7XF?p=23
https://www.bilibili.com/video/BV1JE411g7XF?p=20
（李宏毅老师的课程，强烈推荐！上一篇已经讲很好了，李老师的课简直更清晰明了）

1. 从CNN到RNN

我们知道卷积神经网络(CNN)有着强大的作用，只要有足够多的训练数据，机器就可以自己学习一个网络模型，输入指定的x，就可以输出想要的y。
在这里插入图片描述
那么为什么需要RNN呢？
举一个简单的例子：

对于一个slot filling的问题，我们想要输入I arrive Taipei on November这个句子，学到Taipei这个单词属于destination这个slot。CNN在进行学习的时候，对一个句子中的每个单词进行编码作为输入，再通过hidden layer输出每个单词对应的slot。但这样的训练模式会产生一个问题：当输入是arrive Taipei和leave Taipei的时候，由于对每个单词的学习过程都是独立的，因此它无法学到当前一个单词是arrive的时候Taipei就是destination，当前一个单词是leave的时候Taipei就成了destination。

CNN只能对每一个输入独立进行学习，无法学习前一个输入和后一个输入之间的联系。这时候就需要RNN了。

1.1 简单的RNN

RNN的改进核心之处在于每一时刻的hidden layer，不仅接收当前时刻的输入，同时接收上一时刻hidden layer的输出。
在这里插入图片描述
如上图所示，我们先输入arrive，对应隐藏层的输出是 $a_1$ ，下一时刻输入Taipei时，隐藏层的输出 $a_2$ 取决于 $x_2$ 和 $a_1$ ，后面依次类推。
用公式表示：

$a_t=f(Ux_t+Wa_{t-1})$
$y_t=g(Va_t)$

1.2 双向RNN

用上面的RNN来进行输出时，输出 $y_t$ 的时候网络学习了 $t$ 时刻以前的所有输入，但有时候生成输出时不仅与前面时刻的输入有关，也可能与后面时刻的输入有关。
于是有了下面的双向RNN网络：

下面一条分支从 $x_1$ 依次输入到 $x_n$ ，上面一条分支反过来从 $x_n$ 输入到 $x_1$ ，中间 $t$ 时刻hidden layer的输入由 $x_t$ 、 $a_{t-1}$ 和 $a_{t+1}$ 共同决定。

1.3 Long Short-term Memory(LSTM)

上面介绍的是RNN的简单版本，现在常用的RNN实际上指的是它的进阶版——LSTM。
一开始我们直接把每个时刻的hidden layer的输出都保存起来，提供给下一个时刻使用，这个存储和使用的过程都是没有任何限制的。而在LSTM中，我们增加了3个gate用来控制memory cell的存储和调用。

input gate：决定是否要将某些值存进memory cell里面
forget gate：决定是否要清空此时memory cell中存储的值
output gate：决定是否要调用memory cell中存储的值

LSTM实质就是把上面这个结构整个作为一个neuron取代上面RNN网络图里面store的蓝色圈圈的那部分。

下面用公式来表示这个neuron的输入输出过程：

z是想要存进memory cell中的值（整个neuron的输入）， $z_i$ 、 $z_f$ 和 $z_o$ 分别代表三个gates，是由当前时刻的输入 $x$ 通过矩阵变换得到的。 $c$ 表示当前时刻cell memory中已经存好了的值， $c^{'}$ 表示更新后cell memory中的新值， $a$ 表示整个neuron的输出。

为什么要用LSTM取代RNN？
——LSTM解决了RNN训练过程中梯度消失的问题。

在RNN的训练过程中发现loss不是逐渐收敛的，而是突然降低或者突然升高。通过实验发现，训练过程中loss对矩阵W的变化非常敏感，因此用梯度下降法更新W时，W从平坦的地方跳到陡峭的地方，loss会发生剧烈变化。
在这里插入图片描述
看下面这个例子可以有一个更直观的理解：

对于RNN来说，前后两个step的hidden state中间经过了一层sigmoid，所以后向传播的时候梯度会乘上一个sigmoid的导数值。根据求导的链式法则，导致梯度表示成连积的形式从而造成梯度消失。
对于LSTM来说，前后两个step的hidden cell没有经过一个sigmoid层，而是乘了一个sigmoid的函数值 / 激活值（即LSTM的forget gate），所以后向传播的时候梯度也会乘上一个sigmoid的函数值，导致梯度表现为累加的形式，因此避免了梯度消失。
（Mark一下，关于梯度消失的问题还有待进一步学习）

2. 从RNN到Attention

2.1 基于RNN的Attention-based Model

先看一个seq2seq的经典模型在机器翻译中的应用——
在这里插入图片描述
由于输入和输出的长度是不同的，因此采用上图encoder-decoder的结构。

左边为encoder，采用RNN对输入的四个字进行编码后得到最后一个字的hidden layer的输出作为整个输入的特征表示，记为 $C$ 。此时 $C$ 包含了输入的所有信息。
右边的decoder同样也采用RNN的结构，这时候将 $C$ 看成RNN的输入，蓝色框为decoder的hidden layer，依次进行输出，同时每个时刻的输出取决于 $C$ 和上一时刻的输出。

简化表示：
在这里插入图片描述
用公式表示如下：

$C=F(x_1,x_2,...,x_m)$
$y_i=G(C,y_1,y_2,...,y_{i-1})$

当输入的句子很长的时候，C与前面的输出关联性越来越弱，仅仅利用C作为输入的特征表示来生成输出，效果不够理想。

这时候Attention就发挥作用了！
Attention-based model主要是模拟人脑的注意力机制，我们知道人在获取外界信息的时候大脑是会有一个侧重的关注点的。
我们现在看下面这张图。

在这里插入图片描述

打一个比方说，现在你看着这整个网页，页面上所有的内容就称之为Sensory Memory，你的大脑会对所有的内容有一个注意力的分配，最终为下面这张图分配较高的权重，使得你的视线集中到图上，称之为Working Memory。这个过程就是紫色框部分所表示的Attention的学习过程。
那么你的大脑是怎么知道要将注意力集中到哪里的呢？你的大脑中储存很多知识，如何进行数学运算，如何迅速阅读一篇文章等等，称之为Long-term Memory。所以当你看到这个网页时，你将从你的Long-term Memory中检索与之相关的知识，指导你的大脑去进行注意力的分配。这个检索的过程，实际上也是一个为大脑中Long-term Memory中所有内容分配注意力的过程，也就是图中红色框的部分。
这样以来你用大脑中现存的Long-term Memory解决了此时的新问题，再反过来对现在学到的知识进行编码，存到Memory里面，用于未来新问题的出现。

下面我们主要讲紫色框部分这种attention的学习。
还是以机器翻译为例，它的主要流程如下面所示：
在这里插入图片描述

第一步通过RNN网络学习“机器学习”四个字的hidden layer输出 $h_1,h_2,h_3,h_4$ ；
初始化一个 $z_0$ 向量，用 $z_0$ 去和 $h_1,h_2,h_3,h_4$ 进行匹配计算相似度（有很多种匹配方法，计算cosine similarity/dot product等）得到 $\alpha_0^1,\alpha_0^2,\alpha_0^3,\alpha_0^4$ ，对这些 $\alpha$ 进行softmax计算得到 ${\hat\alpha}_0^1,\hat\alpha_0^2,\hat\alpha_0^3,\hat\alpha_0^4$ ；
计算 $c_0=\sum \hat\alpha_0^ih^i$ ,解码的过程同样也采用一个RNN网络， $z_0$ 相当于一个初始的memory，此时把 $c_0$ 作为这RNN网络的第一个输入，那么 $z_1$ 就是第一个隐藏层的输出，它取决于 $z_0$ 和 $c_0$ 值；
同样用 $z_1$ 去和 $h_1,h_2,h_3,h_4$ 匹配得到 ${\hat\alpha}_1^1,\hat\alpha_1^2,\hat\alpha_1^3,\hat\alpha_1^4$ ，计算 $c_1=\sum \hat\alpha_1^ih^i$ ，第二个隐藏层的输出 $z_2$ 不仅取决于 $z_1$ 和 $c_1$ 值，同时还取决于已经输出的 $y_1$ ，即“machine”这个单词。
继续重复这个步骤，直到输出结束符的时候终止计算。

2.2 Self-Attention Layer

按照2.1中基于RNN的Attention-based Model来解决seq2seq的问题的弊端是：无论是encoder还是decoder，每一时刻都必须等上一个时刻计算完来之后才能进行，因此无法采用并行计算。

于是就有来这篇引用达到7000多次的《Attention is All You Need》。它提出来一个self-attention layer，可以取代RNN，还可以并行计算。
Self-attention layer的计算流程如下：在这里插入图片描述
对输入的每个特征embedding进行矩阵变换，分别乘以 $W_q,W_k,W_v$ 后得到 $q_i,k_i,v_i$ 。对于 $q_1$ 来说，用它与所有的 $k_i$ 进行匹配计算相似度得到 $\alpha_1^i$ ，那么输出的 $b_1=\sum \hat\alpha_1^iv_i$ 。然后用同样的方法计算出 $b_2,b_3,b_4$ 。

这里我想了一个便于理解的比喻来解释为什么要把每个 $a$ 换成 $q, k, v$ 。
我们可以把 $a_1,a_2,a_3,a_4$ 想象成四个要去攻打敌人的英雄，把 $v_1,v_2,v_3,v_4$ 看成每个英雄各自拥有的技能， $q_1,q_2,q_3,q_4$ 是它们学习技能的能力， $k_1,k_2,k_3,k_4$ 是他们把自身技能教给其他英雄的能力。那么对于英雄 $a_1$ 来说，用 $q_1$ 和 $k_i$ 进行匹配得到这个英雄学到每个英雄的技能的概率，再乘以 $v_i$ 就是这个英雄最终能够学习到的所有技能。
经过这样一个学习过程之后，每个英雄都吸收了其他英雄的技能，得到了强化。

另外Transformer采用了一个multi-head self-attention，线性变换得到8组不同的 $q_i,k_i,v_i$ 矩阵，记作 $q_i^j,k_i^j,v_i^j$ , $(i = 1, 2, 3, 4; j = 1, 2, . . ., 8)$ 。对这8组都进行相同的上面self-attention的操作，得到 $b_i^1,b_i^2,...,b_i^8$ ，然后将所有的 $b$ 连接起来，再乘上一个转换矩阵得到最终的encoder的输出。
在这里插入图片描述

这样做的目的是让8组不同的 $q, k, v$ 自主学习关注不同的东西，可能用 $q_i^1,k_i^1,v_i^1$ 计算得到的 $b_i^1$ 侧重于捕捉每个单词与它周围单词的联系， $b_i^2$ 侧重于捕捉每个单词和距离它较远单词的联系。论文中给出了一个attention visualization：

在这里插入图片描述

可以看到左边侧重于邻近单词的attention，右边侧重于稍远一点单词的attention。沿用上面英雄的例子的话可以理解成，每个英雄的技能 $v$ 可以分解成8个不同的子技能。

3. 从Attention到Transformer

Transformer的结构中利用self-attention layer来解决seq2seq的问题，模型结构如下：
在这里插入图片描述
具体的步骤整理在上一篇论文笔记《【注意力模型】Attention is All You Need》，这里就不再展开讲解了。

桑戈塔的七菇凉

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Attention Model详细总结——从RNN到Transformer

文章目录前言1. 从CNN到RNN1.1 简单的RNN1.2 双向RNN1.3 Long Short-term Memory(LSTM)2. 从RNN到Attention2.1 基于RNN的Attention-based Model2.2 Self-Attention Layer3. 从Attention到Transformer前言之前读了引用率超高的《Attention is All You...
复制链接

扫一扫