图解seq2seq+attention机制

最新推荐文章于 2023-05-04 13:32:51 发布

废柴小七

最新推荐文章于 2023-05-04 13:32:51 发布

阅读量329

点赞数

分类专栏：学习记录文章标签： attention sequence

本文链接：https://blog.csdn.net/qq_42272783/article/details/115378121

版权

学习记录专栏收录该内容

11 篇文章 0 订阅

订阅专栏

seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。–简书

一、注意力机制Attention

任务：德文翻译为英文

先讲解Encoder部分的注意力机制在这里插入图片描述

$x_i$ ：表示输入的每一个德文单词（严谨的说，应该是德文单词的向量表示word_embedding）
A：Encoder，隐藏层，可以是GRU、LSTM、RNN
$h_i$ ：每个时刻最后一层生成的隐藏层状态
$h_m$ ：最后一层最后时刻生成的隐藏层状态
$s_0$ ：数值上= $h_m$ ，在此记为换个名字
$α_i$ ： $s_0$ 与 $h_i$ 的"相似度"（相关性）的权重表示
Weight: $\alpha_i$ =align( $s_0$ , $h_i$ )

计算得到 m 个相关性αi之后，将这些值与hi进行加权平均

$c_0=\sum_{i=1}^m \alpha_i h_i=\alpha_1h_1+···\alpha_mh_m$

$c_0$ 称为context vector ，上下文背景变量

简单说明一下计算 $c_0$ 的原因：
对于那些权重比较大的 $α_k$ ，最终 $c_0$ 中也会有一大部分来自于 $α_k$ 。 $c_0$ 实际上考虑到了所有时刻的隐藏层变量h，而h又是输入的x的表示。也就是说 $c_0$ 考虑了所有的输入，但对于重要的输入时刻关注得更多，而某些时刻关注的更少，这就是注意力机制。

接下来讲解Decoder部分的注意力机制
在这里插入图片描述
$x_i^’$ ：表示正确的的英文单词翻译输入
$A^’$ ：Decoder隐藏层，也是RNN或RNN的变种
$s_0$ ：在Encoder部分计算得到的

将 $s_0,c_0,x_1^’$ 作为 $t_0$ 时刻 Decoder 的输入,计算得到 $s_1$ ,然后再计算 $s_1$ 与所有 $h_i\ (i=1,...,m)$ 之间新的相关性 $\alpha_i$

同样的，将新计算得到的 $\alpha_i$ 与 $h_i$ 做加权平均，得到新的 context vector $c_1$

在这里插入图片描述
重复上述步骤，直到 Decoder 结束

ps:简化版的Decoder也可能没有多次计算context vector ci,而是用c0一以贯之。

二、编码器 — 解码器

编码器和解码器分别对应输入序列和输出序列的两个循环神经网络。我们通常会在输入序列和输出序列后面分别附上一个特殊字符<eos>（end of sequence）表示序列的终止。在测试模型时，一旦输出<eos>就终止当前的输出序列

二（1）、编码器Encoder

注：context vextor：称背景向量、上下文向量、上下文背景向量

编码器的作用是把一个不定长的输入序列转化成一个定长的背景词向量c。该背景词向量包含了输入序列的信息。常用的编码器是循环神经网络。
假设 $x_t$ 是单个输出在嵌入层的结果，即输入。
隐藏层变量为

$\boldsymbol{h}_t = f(\boldsymbol{x}_t, \boldsymbol{h}_{t-1})$

编码器的上下文背景向量为

$\boldsymbol{c} = q(\boldsymbol{h}_1, \ldots, \boldsymbol{h}_T)$

一个简单的背景向量可以认为是该网络最终时刻的隐藏层变量。我们将这里的循环神经网络叫做编码器。
当我们希望编码器的输入既包含正向传递信息又包含反向传递信息时，我们可以使用双向循环神经网络：
如果输入序列是，在正向传递中 $\boldsymbol {x}_1,\boldsymbol {x}_2,...,\boldsymbol {x}_T$ ，隐藏层变量为：

$\overrightarrow {\boldsymbol{h}}_t = f(\boldsymbol{x}_t,\overrightarrow {\boldsymbol{h}}_{t-1})$

而反向传递过程中 $\boldsymbol {x}_T,\boldsymbol {x}_T-1,...,\boldsymbol {x}_1$ ，隐藏层变量的计算变为:

$\overleftarrow {\boldsymbol{h}}_t = f(\boldsymbol{x}_t,\overleftarrow {\boldsymbol{h}}_{t-1})$

此时的隐藏层变量为：

$\overleftarrow {\boldsymbol{h}}_t = f(\overrightarrow{\boldsymbol{h}}_{t-1},\overleftarrow {\boldsymbol{h}}_{t-1})$

二（2）、解码器Decoder

编码器最终输出了一个上下文背景向量c，该背景向量整合了输入序列 $\boldsymbol {x}_1,\boldsymbol {x}_2,...,\boldsymbol {x}_T$
假设训练数据中的输出序列是 $\boldsymbol {y}_1,\boldsymbol {y}_2,...,\boldsymbol {y}_{T'}$ ，我们希望表示每个 $t^’$ 时刻输出的向量，既取决于之前的输出又取决于背景向量。因为，我们可以最大化输出序列的联合概率

$P(\boldsymbol{y}_1,\boldsymbol{y}_2,...,\boldsymbol{y}_{T'})=\prod_{t'=1}^{T'}P(\boldsymbol{y}_{t'}\mid \boldsymbol{y}_1,...,\boldsymbol{y}_{t'-1},\boldsymbol{c})$

为此，我们使用另一个循环神经网络作为解码器。解码器使用函数p来表示单个输出 $\boldsymbol {y}_{t'}$ 的概率

$P(\boldsymbol{y}_{t'}\mid \boldsymbol{y}_1,...,\boldsymbol{y}_{t'-1},\boldsymbol{c})=p(\boldsymbol{y}_{t'-1},\boldsymbol{s}_{t'},\boldsymbol{c})$

其中的 $\boldsymbol{s}_{t'}$ 为 $\boldsymbol{t'}$ 时刻的解码器的隐藏层变量。该隐藏层变量

$\boldsymbol{s}_{t'}=g(\boldsymbol{y}_{t'-1},\boldsymbol{c},\boldsymbol{s}_{t'-1})$

其中函数 g 是循环神经网络单元。

需要注意的是，编码器和解码器通常会使用多层循环神经网络

图解attention

废柴小七

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
图解seq2seq+attention机制

一、注意力机制Attention任务：德文翻译为英文先讲解Encoder部分的注意力机制xix_ixi：表示输入的每一个德文单词（严谨的说，应该是德文单词的向量表示）A：Encoder，隐藏层，可以是GRU、LSTM、RNNhih_ihi：每个时刻最后一层生成的隐藏层变量hmh_mhm：最后一层最后时刻生成的隐藏层变量s0s_0s0：数值上=hmh_mhm，在此记为换个名字αiα_iαi：s0s_0s0与hih_ihi的"相似度"（相关性）的权重表示Weight: αi\a
复制链接

扫一扫

专栏目录