序列建模之循环和递归网络 - 深度循环网络篇

绎岚科技

于 2024-08-17 06:30:00 发布

阅读量603

点赞数 12

分类专栏：深度学习算法机器学习文章标签： cnn 神经网络深度学习机器学习人工智能

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/141157521

版权

机器学习同时被 3 个专栏收录

100 篇文章 1 订阅

订阅专栏

深度学习

71 篇文章 0 订阅

订阅专栏

算法

34 篇文章 0 订阅

订阅专栏

序言

在序列建模的深入探索中，深度循环网络（ $\text{Deep Recurrent Neural Network, DRNN}$ ）作为循环神经网络（ $\text{RNN}$ ）的扩展与深化，以其多层结构和对长序列数据的卓越处理能力，成为了处理复杂时间序列数据的强大工具。 $\text{DRNN}$ 通过堆叠多个 $\text{RNN}$ 层，不仅增强了模型对序列数据的非线性变换能力，还显著提升了模型捕捉长期依赖关系的能力。这种多层结构使得 $\text{DRNN}$ 能够学习到更高级别的特征表示，从而在语音识别、自然语言处理、图像处理等多个领域展现出广泛的应用前景。

深度循环网络

大多数 $\text{RNN}$ 中的计算可以分解成三块参数及其相关的变换：

从输入到隐藏状态，
从前一隐藏状态到下一隐藏状态，以及
从隐藏状态到输出。

根据循环神经网络篇 - 图例1中的 $\text{RNN}$ 架构，这三个块都与单个权重矩阵相关联。
- 换句话说，当网络被展开时，每个块对应一个浅的变换。
- 能通过深度 $\text{MLP}$ 内单个层来表示的变换称为浅变换。
- 通常，这是由学好的仿射变换和一个固定非线性表示的转换。
在这些操作中引入深度会有利的吗？
- 实验证据 ( $\text{Graves, 2013; Pascanu et al.,2014a}$ ) 强烈暗示理应如此。
- 实验证据与我们需要足够的深度以执行所需映射的想法一致。可以参考 $\text{Schmidhuber (1996); El Hihi and Bengio (1996)}$ 或 $\text{Jaeger (2007a)}$ 了解更早的关于深度RNN的研究。
$\text{Graves (2013)}$ 第一个展示了将RNN的状态分为多层的显著好处，如图例1（左）。
- 我们可以认为，在图例1 - (a)所示层次结构中较低的层起到了将原始输入转化为对更高层的隐藏状态更合适表示的作用。
- $\text{Pascanu et al. (2014a)}$ 更进一步提出在上述三个块中各使用一个单独的 $\text{MLP}$ （可能是深度的），如图例1 - (b)所示。
- 考虑表示容量，我们建议在这三个步中都分配足够的容量，但增加深度可能会因为优化困难而损害学习效果。
- 在一般情况下，更容易优化较浅的架构，加入图例1 - (b) 的额外深度导致从时间步 $t$ 的变量到时间步 $t + 1$ 的最短路径变得更长。
- 例如，如果具有单个隐藏层的 $\text{MLP}$ 被用于状态到状态的转换，那么与图例1相比，我们就会加倍任何两个不同时间步变量之间最短路径的长度。
- 然而 $\text{Pascanu et al. (2014a)}$ 认为，在隐藏到隐藏的路径中引入跳跃连接可以缓和这个问题，如图例1 - (c)所示。

图例1：循环神经网络可以通过许多方式变得更深( $\text{Pascanu et al., 2014a}$ )。
循环神经网络可以通过许多方式变得更深( $\text{Pascanu et al., 2014a}$ )。
说明：
- (a) 隐藏循环状态可以被分解为具有层次的组。
- (b) 可以向输入到隐藏，隐藏到隐藏以及隐藏到输出的部分引入更深的计算 (如 $\text{MLP}$ )。这可以延长链接不同时间步的最短路径。
- © 可以引入跳跃连接来缓解路径延长的效应。

总结

深度循环网络以其多层结构和强大的时序建模能力，在序列建模领域取得了显著成就。通过堆叠多个 $\text{RNN}$ 层， $\text{DRNN}$ 能够执行多次非线性转换，有效处理长序列数据，并捕捉其中的复杂依赖关系。这种特性使得 $\text{DRNN}$ 在多种应用场景中表现出色，如自然语言处理中的机器翻译、情感分析，以及语音识别中的语音转文本等。随着深度学习技术的不断发展， $\text{DRNN}$ 的性能和应用范围还将不断拓展，为更多领域的序列建模任务提供有力支持。

往期内容回顾

序列建模之循环和递归网络 - 循环神经网络篇

绎岚科技

关注

12
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
序列建模之循环和递归网络 - 深度循环网络篇

在序列建模的深入探索中，深度循环网络（Deep Recurrent Neural Network, DRNN）作为循环神经网络（RNN）的扩展与深化，以其多层结构和对长序列数据的卓越处理能力，成为了处理复杂时间序列数据的强大工具。DRNN通过堆叠多个RNN层，不仅增强了模型对序列数据的非线性变换能力，还显著提升了模型捕捉长期依赖关系的能力。这种多层结构使得DRNN能够学习到更高级别的特征表示，从而在语音识别、自然语言处理、图像处理等多个领域展现出广泛的应用前景。
复制链接

扫一扫