序列到序列网络seq2seq与注意力机制attention浅析

最新推荐文章于 2024-06-27 00:19:02 发布

野营者007

最新推荐文章于 2024-06-27 00:19:02 发布

阅读量1.5k

点赞数

分类专栏：自然语言处理(NLP)技术入门文章标签：神经网络 seq2seq attention auto-encoder

本文链接：https://blog.csdn.net/qq_40136685/article/details/111056464

版权

本文介绍了序列到序列网络(seq2seq)及其在信息压缩和机器翻译中的应用。seq2seq模型由编码器和解码器组成，而注意力机制解决了seq2seq模型中的信息瓶颈问题，允许解码器在生成输出时关注输入序列的特定部分，从而提高模型性能。通过计算注意力得分和分布，解码器在每个时间步得到不同的上下文向量，提升了模型的灵活性和准确性。

摘要由CSDN通过智能技术生成

序列到序列网络

序列到序列网络(Sequence to Sequence network)，也叫做seq2seq网络, 又或者是编码器解码器网络(Encoder Decoder network)，是一个由两个称为编码器解码器的RNN组成的模型。在这里进行介绍的作用是确定变量的名称，为接下来讲注意力机制做铺垫。

自编码器也是seq2seq模型中的一种。在自编码器中，解码器的工作是将编码器产生的向量还原成为原序列。经过压缩之后不可避免的会出现信息的损失，我们需要尽量将这种损失降低（方法是设置合理的中间向量大小和经过多次训练迭代的编码-解码器）。相关理论本身在这里讲得不是很清楚，有兴趣了解更多的同学可以移步数学专题中的信息论。

编码器

把一个不定长的输入序列变换成一个定长的背景变量 $c$ ，并在该背景变量中编码输入序列信息。编码器可以使用循环神经网络。

在时间步 $t$ ，循环神经网络将输入的特征向量 $x_t$ 和上个时间步的隐藏状态 $h_{t−1}$ 变换为当前时间步的隐藏状态 $h_t$ 。
$h_t = f(x_t, h_{t-1})$
接下来，编码器通过自定义函数 $q$ 将各个时间步的隐藏状态变换为背景变量
$c=q(h_1,...,h_T)$
例如，我们可以将背景变量设置成为输入序列最终时间步的隐藏状态 $h_T$ 。

以上描述的编码器是一个单向的循环神经网络，每个时间步的隐藏状态只取决于该时间步及之前的输入子序列。我们也可以使用双向循环神经网络构造编码器。在这种情况下，编码器每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列（包括当前时间步的输入），并编码了整个序列的信息。

解码器

对每个时间步 $t'$ ，解码器输出 $y_{t′}$ 的条件概率将基于之前的输出序列 $y_1,...,y_{t′−1}$ 和背景变量 $c$ （所有时间步共用），即 $P(y_{t′}∣y_1,...,y_{t′−1},c)$ 。同时还要考虑上一时间步的隐藏状态 $s_{t′−1}$ 。
$s_{t'} = g(y_{t′−1}, c, s_{t'-1})$