序列建模之循环和递归网络 - 双向RNN篇

最新推荐文章于 2024-09-15 15:29:29 发布

绎岚科技

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量1k

点赞数 19

分类专栏：深度学习算法机器学习文章标签： rnn 人工智能深度学习算法神经网络机器学习

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/141143788

版权

机器学习同时被 3 个专栏收录

131 篇文章 1 订阅

订阅专栏

深度学习

102 篇文章 1 订阅

订阅专栏

算法

62 篇文章 0 订阅

订阅专栏

序言

在序列建模的广阔领域中，循环神经网络（ $\text{RNN}$ ）以其独特的循环结构，在处理序列数据方面展现出了强大的能力。然而，传统的单向 $\text{RNN}$ 在处理某些复杂任务时，如自然语言处理中的文本理解，往往受限于其仅能利用过去信息的局限性。为了克服这一挑战，双向 $\text{RNN}$ 应运而生。双向 $\text{RNN}$ 通过结合两个独立且方向相反的 $\text{RNN}$ ，能够同时捕获输入序列中的前向和后向信息，从而在预测或分类时能够利用更全面的上下文信息。

双向 $\text{RNN}$

目前为止我们考虑的所有循环神经网络有一个 ‘‘因果’’ 结构，意味着在时刻 $t$ 的状态只能从过去的序列 $\boldsymbol{x}^{(1)},\dots,\boldsymbol{x}^{(t-1)}$ 以及当前的输入 $\boldsymbol{x}^{(t)}$ 捕获信息。我们还讨论了某些在 $\boldsymbol{y}$ 可用时，允许过去的 $\boldsymbol{y}$ 值信息影响当前状态的模型。
然而，在许多应用中，我们要输出的 $\boldsymbol{y}^{(t)}$ 的预测可能依赖于整个输入序列。
- 例如，在语音识别中，由于协同发音，当前声音作为音素的正确解释可能取决于未来几个音素，甚至潜在的可能取决于未来的几个词，因为词与附近的词之间的存在语义依赖：如果当前的词有两种声学上合理的解释，我们可能要在更远的未来（和过去）寻找信息区分它们。
- 这在手写识别和许多其他序列到序列学习的任务中也是如此，将会在后续篇章：基于编码/解码的序列到序列架构中描述。
双向循环神经网络（或双向 $\text{RNN}$ ）为满足这种需要而被发明( $\text{Schuster and Paliwal, 1997}$ )。他们在需要双向信息的应用中非常成功 ( $\text{Graves, 2012}$ )，如：
- 手写识别( $\text{Graves et al., 2008; Graves and Schmidhuber, 2009}$ )，
- 语音识别 ( $\text{Graves and Schmidhuber, 2005; Graves et al., 2013}$ )，
- 以及生物信息学 ( $\text{Baldi et al., 1999}$ )。
顾名思义，双向 $\text{RNN}$ 结合时间上从序列起点开始移动的 $\text{RNN}$ 和另一个时间上从序列末尾开始移动的 $\text{RNN}$ 。
- 图例1展示了典型的双向 $\text{RNN}$ ，其中 $\boldsymbol{h}^{(t)}$ 代表通过时间向前移动的子 $\text{RNN}$ 的状态， $\boldsymbol{g}^{(t)}$ 代表通过时间向后移动的子 $\text{RNN}$ 的状态。
- 这允许输出单元 $\boldsymbol{\omicron}^{(t)}$ 能够计算同时依赖于过去和未来且对时刻 $t$ 的输入值最敏感的表示，而不必指定 $t$ 周围固定大小的窗口（这是前馈网络、卷积网络或具有固定大小的先行缓存器的 $\text{RNN}$ 必须要做的）。
- 这个想法可以自然扩展到 $2$ 维输入，如图像，由四个 $\text{RNN}$ 组成，每一个沿着四个方向中的一个计算：上、下、左、右。
- 如果 $\text{RNN}$ 能够学习到承载长期信息，那在 $2$ 维网格每个点 $(i, j)$ 的输出 $\Omicron_{i,j}$ 就能计算一个能捕捉到大多局部信息并且依赖于长期输入的表示。
- 相比卷积网络，应用于图像的 $\text{RNN}$ 通常更昂贵，但允许同一特征图的特征之间存在长期横向的相互作用 ( $\text{Visin et al., 2015; Kalchbrenner et al., 2015}$ )。
- 实际上，对于这样的 $\text{RNN}$ ，前向传播公式可以写成表示使用卷积的形式，计算自底向上到每一层的输入（在整合横向相互作用的特征图的循环传播之前）。

图例1：典型的双向循环神经网络中的计算，意图学习将输入序列 $\boldsymbol{x}$ 映射到目标序列 $\boldsymbol{x}$ （在每个步骤 $t$ 具有损失 $L^{(t)}$ ）。
- 典型的双向循环神经网络中的计算，意图学习将输入序列 $\boldsymbol{x}$ 映射到目标序列 $\boldsymbol{x}$ （在每个步骤 $t$ 具有损失 $L^{(t)}$ ）。
- 说明：
  - 循环性 $\boldsymbol{h}$ 在时间上向前传播信息（向右），而循环性 $\boldsymbol{g}$ 在时间上向后传播信息（向左）。
  - 因此在每个点 $t$ ，输出单元 $\boldsymbol{\omicron}^{(t)}$ 可以受益于输入 $\boldsymbol{h}^{(t)}$ 中关于过去的相关概要以及输入 $\boldsymbol{g}^{(t)}$ 中关于未来的相关概要。

总结

双向 $\text{RNN}$ 作为一种创新的序列建模方法，显著提升了模型在处理复杂序列数据时的性能。通过前向 $\text{RNN}$ 捕捉过去的信息，后向 $\text{RNN}$ 捕捉未来的信息，并将两者的输出进行融合，双向 $\text{RNN}$ 能够生成更为丰富和准确的特征表示。这种特性使得双向 $\text{RNN}$ 在诸多领域，如机器翻译、语音识别、情感分析等，都取得了显著的应用效果。同时，双向 $\text{RNN}$ 也为后续的序列建模研究提供了新的思路和方法，推动了该领域的持续进步和发展。