序列建模之循环和递归网络 - 基于编码/解码的序列到序列架构篇

绎岚科技

于 2024-08-16 07:30:00 发布

阅读量1.2k

点赞数 37

分类专栏：深度学习算法机器学习文章标签： cnn 神经网络深度学习机器学习人工智能

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/141156382

版权

机器学习同时被 3 个专栏收录

156 篇文章 2 订阅

订阅专栏

深度学习

127 篇文章 1 订阅

订阅专栏

算法

87 篇文章 0 订阅

订阅专栏

序言

在序列建模领域，循环神经网络（ $\text{RNN}$ ）及其变体，如长短期记忆网络（ $\text{LSTM}$ ）和门控循环单元（ $\text{GRU}$ ），因其处理序列数据的能力而备受关注。然而，对于某些复杂任务，如机器翻译、语音识别和问答系统，传统的 $\text{RNN}$ 模型在处理不等长输入和输出序列时显得力不从心。基于编码/解码的序列到序列（ $\text{Seq2Seq}$ ）架构的提出，为这些难题提供了新的解决方案。

基于编码/解码的序列到序列架构

我们已经在下面篇章的图例中看到 $\underline{\text{RNN}}$ 如何将输入序列映射成固定大小的向量。
- 循环神经网络篇 - 图例3
我们已经在下面篇章的图例中看到 $\underline{\text{RNN}}$ 如何将固定大小的向量映射成一个序列。
- 循环神经网络篇 - 图例7
我们已经在下列篇章的图例中看到 $\underline{\text{RNN}}$ 如何将一个输入序列映射到等长的输出序列。
本篇我们讨论如何训练 $\text{RNN}$ ，使其将输入序列映射到不一定等长的输出序列。
- 这在许多场景中都有应用，如语音识别、机器翻译或问答，其中训练集的输入和输出序列的长度通常不相同（虽然它们的长度可能相关）。
我们经常将RNN的输入称为 ‘‘上下文’’。
- 我们希望产生此上下文的表示， $C$ 。
- 这个上下文 $C$ 可能是一个概括输入序列 $\boldsymbol{X}=(\boldsymbol{x}^{(1)},\dots,\boldsymbol{x}^{(n_x)})$ 的向量或者向量序列。
用于映射可变长度序列到另一可变长度序列最简单的 $\text{RNN}$ 架构最初由 $\text{Cho et al. (2014a)}$ 提出，之后不久由 $\text{Sutskever et al. (2014)}$ 独立开发，并且第一个使用这种方法获得翻译的最好结果。
- 前一系统是对另一个机器翻译系统产生的建议进行评分，而后者使用独立的循环网络生成翻译。
- 这些作者分别将该架构称为编码-解码或序列到序列架构，如图例1所示。
- 这个想法非常简单：
  - (1) 编码器 ( $\text{encoder}$ )或读取器( $\text{reader}$ ) 或输入 ( $\text{input}$ ) $\text{RNN}$ 处理输入序列。编码器输出上下文 $C$ （通常是最终隐藏状态的简单函数）。
  - (2) 解码器 (decoder) 或写入器 (writer) 或输出 (output) $\text{RNN}$ 则以固定长度的向量（如循环神经网络篇 - 图例7）为条件产生输出序列 $\boldsymbol{Y}=(\boldsymbol{y}^{(1)},\dots,\boldsymbol{y}^{(n_y)})$ 。
  - 这种架构对比前几篇章提出的架构的创新之处在于长度 $n_x$ 和 $n_y$ 可以彼此不同，而之前的架构约束 $n_x = n_y = \tau$ 。
  - 在序列到序列的架构中，两个 $\text{RNN}$ 共同训练以最大化 $\log P(\boldsymbol{y}^{(1)},\dots,\boldsymbol{y}^{(n_y)}|\boldsymbol{x}^{(1)},\dots,\boldsymbol{x}^{(n_x)})$ (关于训练集中所有 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 对的平均)。
  - 编码器 $\text{RNN}$ 的最后一个状态 $\boldsymbol{h}_{n_x}$ 通常被当作输入的表示 $C$ 并作为解码器 $\text{RNN}$ 的输入。
如果上下文 $C$ 是一个向量，则编码器 $\text{RNN}$ 只是在循环神经网络篇 - 基于上下文的RNN序列建模描述的向量到序列 $\text{RNN}$ 。
- 正如我们所见，向量到序列 $\text{RNN}$ 至少有两种接受输入的方法。
- 输入可以被提供为 $\text{RNN}$ 的初始状态，或连接到每个时间步中的隐藏单元。这两种方式也可以结合。
这里并不强制要求编码器与解码器的隐藏层具有相同的大小。
此架构的一个明显限制是，编码器 $\text{RNN}$ 输出的上下文 $C$ 的维度太小而难以适当地概括一个长序列。
- 这种现象由 $\text{Bahdanau et al. (2015)}$ 在机器翻译中观察到。
- 他们提出让 $C$ 成为可变长度的序列，而不是一个固定大小的向量。
- 此外，他们还引入了将序列 $C$ 的元素和输出序列的元素相关联的注意机制 ( $\text{attention mechanism}$ )。可在后续篇章中了解更多详情。

图例1：在给定输入序列 $(\text{x}^{(1)},\dots,\text{x}^{(n_x)})$ 的情况下学习生成输出序列 $(\text{y}^{(1)},\dots,\text{y}^{(n_y)})$ 的编码器-解码器或序列到序列的 $\text{RNN}$ 架构的示例。
- 在给定输入序列 $(\text{x}^{(1)},\dots,\text{x}^{(n_x)})$ 的情况下学习生成输出序列 $(\text{y}^{(1)},\dots,\text{y}^{(n_y)})$ 的编码器-解码器或序列到序列的 $\text{RNN}$ 架构的示例。
- 说明：
  - 它由读取输入序列的编码器 $\text{RNN}$ 以及生成输出序列（或计算给定输出序列的概率）的解码器 $\text{RNN}$ 组成。
  - 编码器 $\text{RNN}$ 的最终隐藏状态用于计算一般为固定大小的上下文变量 $C$ ， $C$ 表示输入序列的语义概要并且作为解码器 $\text{RNN}$ 的输入。

总结

基于编码/解码的序列到序列架构通过分离编码和解码过程，有效地映射了可变长度的输入序列到另一可变长度的输出序列。
编码器部分，通常是一个 $\text{RNN}$ 或其变体，负责读取并处理输入序列，将其压缩成一个固定长度的上下文向量 $C$ ，该向量蕴含了输入序列的语义信息。
解码器部分，则是以此上下文向量为条件，逐步生成输出序列。此架构的一个关键优势在于其灵活性，能够处理长度不一的输入输出序列，并且可以通过引入注意力机制（ $\text{Attention Mechanism}$ ）进一步提升性能，使模型在生成当前输出时能够聚焦于输入序列的相关部分。
总之，基于编码/解码的序列到序列架构为序列建模任务提供了一种强大而灵活的方法，极大地推动了自然语言处理等领域的发展。