Seq2Seq系列（三）：attention mechanism

最新推荐文章于 2024-06-20 10:46:54 发布

myofficials

最新推荐文章于 2024-06-20 10:46:54 发布

阅读量1.3k

点赞数

分类专栏：对话系统

本文链接：https://blog.csdn.net/myofficials/article/details/79064484

版权

对话系统专栏收录该内容

6 篇文章 0 订阅

订阅专栏

论文链接：Neural Machine Translation by Jointly Learning to Align and Translate
这是介绍Seq2Seq系列的第三篇文章，主要讲带有attention机制的Seq2Seq模型。
首先，作者回顾了一下RNN Encoder-Decoder模型：

h t = f (x t, h t - 1)

$h_{t}=f(x_{t},h_{t-1})$

c = q (h 1, . . ., h T x)

$c=q({h1,...,h_{Tx}})$

p (y) = \prod t = 1 T p (y t | y 1, . . ., y t - 1, c) ， y = y 1, . . ., y t

$p(\mathbf{y})=\prod^{T}_{t=1}p(y_{t}|{y_{1},...,y_{t-1},c)， \mathbf{y}={y_{1},...,y_{t}}}$

p (y t | y 1, . . ., y t - 1, c) = g (y t - 1, s t, c)

$p(y_{t}|{y_{1},...,y_{t-1}},c)=g(y_{t-1},s_{t},c)$
就不展开了，列出上面的公式是为了和attention的机制比较，注意前两个公式是Encoder部分的，后两个公式是Decoder部分。
Attention机制：

p (y i | y 1, . . ., y i - 1, x) = g (y i - 1, s i, c i)

$p(y_{i}|{y_{1},...,y_{i-1},\mathbf{x})=g(y_{i-1},s_{i},c_{i}})$

s i = f (s i - 1, y i - 1, c i)

$s_{i}=f(s_{i-1},y_{i-1},c_{i})$

ci $c_{i}$ 被称作context vector，取决于annotations序列

h1,...,hTx $h_{1},...,h_{Tx}$ （即Encoder的隐层状态序列）。
上论文中的图：
这里写图片描述

图片中Encoder采用的RNN是双向的RNN。
context vector的计算公式是：

c i = \sum j = 1 T x α i j h j

$c_{i}=\sum^{Tx}_{j=1}\alpha_{ij}h_{j}$
其内在的想法是，当前decoder的输出，与输入序列是相关的，但是与每一部分的相关程度并不一样。权值满足

∑Txj=1αij=1 $\sum^{Tx}_{j=1}\alpha_{ij}=1$ 。

(h1,...,hTx) $(h_{1},...,h_{Tx})$ 表征的是输入序列。

α $\alpha$ 既然表征的是当前输出与输入序列各个元素的相关程度，那么它肯定是与当前decoder的隐层状态以及annotation相关：

e i j = a (s i - 1, h j)

$e_{ij}=a(s_{i-1},h_{j})$
其中

a(.) $a(.)$ 是非线性函数（请注意，其实一个神经网络也是一个输入关于输出的非线性函数）。

α $\alpha$ 是归一化的

eij $e_{ij}$ ，归一化的方式是softmax：

α i j = e x p ( e i j ) \sum T x k = 1 e x p ( e i k )

$\alpha_{ij}=\frac{exp(e_{ij})}{\sum^{Tx}_{k=1}exp(e_{ik})}$

先停下来总结一下：
带Attention的RNN的decoder部分的输出计算公式为 $g(y_{i-1},s_{i},c_{i})$ ,隐层计算公式为 $s_{i}=f(s_{i-1},y_{i-1},c_{i})$ （ $y_{i-1}$ 是上一时刻的输出，下一时刻的输入，这是Seq2Seq模型的特点，请记住。），相比普通的RNN多出来的是 $c_{i}$ 。
当翻译句子”the cat on the mat”（输入序列）,下一时刻的decode希望输出cat的法语单词，这时候如果能够用到cat这个单词对应的word embedding（指输入cat时，encoder的隐层状态向量），而不是整个序列经过编码后得到的隐层状态要更好一点。这个是我理解的attention的 $c_{i}$ 与Seq2Seq中将整个输入序列编码后得到的隐层状态 $c$ 的区别。
attention只是（或者说主要，因为 $c_{i}$ 是所有 $h$ 的加权和）用到了对解码（decode）当前信息有用的输入序列的局部信息（或者说相关的信息）。
我个人偏向的理解是attention只是用到了输入序列的局部信息，因为 $c_{i}=\sum^{Tx}_{j=1}\alpha_{ij}h_{j}$ 更加现实的考虑是，对于所有部分的权重进行softmax再求和，是为了利用反向传播算法进行求导，毕竟不可导函数是难以训练的。
继续

在Encoder部分，作者使用的是双向的RNN（bidirectional RNN），这种RNN同时将输入序列以正向和反向的方式输入到Encoder中，很多人表示这种做法比单向的RNN要好。

f o r w a r d h i d d e n s t a t e s : (h 1 - \to, . . ., h T x - \to -)

$forward hidden states:(\overrightarrow{h_{1}},...,\overrightarrow{h_{Tx}})$

b a c k w a r d h i d d e n s t a t e s : (h 1 \leftarrow -, . . ., h T x \leftarrow - -)

$backward hidden states:(\overleftarrow{h_{1}},...,\overleftarrow{h_{Tx}})$
上面是正向和反向Encoder得到的隐层状态序列，最终的隐层状态序列处理方法也很简单：

hj=[hTj−→;hTj←−]T $h_{j}=[\overrightarrow{h^{T}_{j}};\overleftarrow{h^{T}_{j}}]^{T}$
把向量连接起来组成一个维度更大的向量。
基本模型到此就完了。

这篇文章很好的一点是在实验部分很详细地讲述了模型的训练细节：
比如mini batch, batch size取80个句子，
句子最大长度 30,50 （两种）
隐层单元取1000（居然不是1024 -_-）
随机低度下降使用Adadelta方法（可以说是很详细了）
等等。

另外补充一个东西：
尽管我们说在Decoder端，上一时刻是输出是下一时刻的输入，这只是在测试和使用模型进行生成任务（比如翻译）时成立。但是在监督训练时，由于真实的label是知道的，所以Decoder的每一时刻的输入都是由label来决定（也就是真实的译文）。
此外，在使用模型进行翻译时，每一时刻的输出也不一定取每一时刻的概率最大值，而一般使用Beam Search技术（一种启发式算法，这部分有时间再补充）。
理由是最终序列要保证 $p(y_{1},...y_{t})=\prod^{T}_{t=1}p(y_{t}|{y_{1},...,y_{t-1}})$ （每一时刻取值概率的乘积）是最大的，然而，使 $p(y_{t}|{y_{1},...,y_{t-1}})$ 最大的 $y_{t}$ 并不能最后的概率积保证最大。比如（0.5, 0.2, 0.3）和（0.2, 0.6, 0.7）尽管在前一时刻0.5大于0.2但不能保证最终的概率积保证最大。

在文章的附录部分，对于带attention的RNN有详细的公式推导，很值得一读。限于个人水平以及时间关系，就不贴出来了。
有时间的话，我想梳理一下曾经看过的TensorFlow的tf.contrib.legacy_seq2seq部分的代码。算作TO DO LIST吧。
本文完

myofficials

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Seq2Seq系列（三）：attention mechanism

论文链接：Neural Machine Translation by Jointly Learning to Align and Translate 这是介绍Seq2Seq系列的第三篇文章，主要讲带有attention机制的Seq2Seq模型。首先，作者回顾了一下RNN Encoder-Decoder模型： ht=f(xt,ht−1)h_{t}=f(x_{t},h_{t-1}) c=q(
复制链接

扫一扫