【深度学习】图解机器翻译模型：基于注意力机制的 Seq2Seq

本文链接：https://blog.csdn.net/be_racle/article/details/128989360

Seq2Seq模型由编码器和解码器构成，用于处理如机器翻译的任务。编码器处理输入序列并生成上下文向量，解码器根据上下文生成输出序列。注意力机制解决了上下文向量的瓶颈问题，允许模型在生成输出时聚焦于输入序列的相关部分，提高翻译质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于注意力机制的 Seq2Seq

Sequence-to-Sequence（Seq2Seq）作为一种深度学习模型，在机器翻译、文本摘要、描述图像等任务中取得了诸多进展。谷歌翻译于 2016 年底开始在实际生产中使用该类模型。在 Sutskever et al., 2014 和 Cho et al., 2014 的两篇开创性论文中对这些模型进行了解释。然而，要充分理解模型并实践，一个跟一个的概念会让人望而却步，以视觉化的表达则更容易让人理解。

在这里插入图片描述
在机器翻译中，序列（sequence）是一系列单词，一个接一个地处理。同样，输出也是一系列单词。

在这里插入图片描述
该模型由 编码器 和 解码器 组成。

编码器处理输入序列中的每一项，它将捕获的信息编译成一个向量（称为上下文）。处理完整个输入序列后，编码器将上下文发送给解码器，解码器开始逐项生成输出序列。

在这里插入图片描述
这和机器翻译任务类似。

在这里插入图片描述
在机器翻译任务中，上下文是一个向量（基本上是一个数字数组），编码器和解码器往往都是 循环神经网络（Recurrent Neural Networks，RNN）。

在设置模型时可以设置上下文向量的大小，它一般是编码器 RNN 中隐藏单元的数量。上图显示了大小为 $4$ 的向量，但在实际应用中，上下文向量的大小可能为 $256$ 、 $512$ 或 $1024$ 。

根据设计，RNN 在每个时间步都有两个输入：一个输入（在编码器的情况下，输入句子中的一个词）和一个隐藏状态。然而，这个词需要用一个向量来表示。我们可以用 词嵌入 的方法将这些单词转换为向量空间，捕获其语义信息（例如：国王 - 男人 + 女人 = 女王）。

在这里插入图片描述
我们可以使用预训练模型完成嵌入，或者在自己的数据集上训练嵌入模型。典型的嵌入向量大小为 $200$ 或 $300$ ，为简单起见，这里仅展示了大小为 $4$ 的向量。

在介绍完了向量后，再来回顾一下 RNN 的机制。

在这里插入图片描述
下一个步骤（Time step #2）将采用第 $2$ 个输入向量（Input vector #2）和第 $1$ 个隐藏状态（hidden state #1）来计算该时间步的输出。

由于编码器和解码器都是 RNN，因此 RNN 的每个时间步骤都会根据其输入和之前看到的输入更新其隐藏状态。

在这里插入图片描述
解码器还维护一个隐藏状态，它从一个时间步传递到下一个时间步。因为我们现在关注的是模型的主要部分，所以并没有在上图中将其可视化。

上下文向量被证明是这类模型的瓶颈，这让模型很难处理长句子。Bahdanau et al., 2014 和 Luong et al., 2015. 提出了一种解决方案。这些论文介绍并完善了一种称为 注意力 的技术，该技术极大地提高了机器翻译系统的质量。Attention 允许模型根据需要关注输入序列的相关部分。

在这里插入图片描述
在第 $7$ 步，注意力机制允许解码器在生成英文翻译之前能够将注意力集中在单词 étudiant（法语中的学生）上。这种 放大来自输入序列相关部分的信号的能力 使得注意力模型能产生比较好的效果。