Fast Slow RNN ——译文

最新推荐文章于 2024-07-22 12:27:09 发布

L_0000

最新推荐文章于 2024-07-22 12:27:09 发布

阅读量1k

点赞数

分类专栏：译文文章标签： FS-RNN

译文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

FS-RNN是一种新型的递归神经网络架构，结合了多尺度RNN和深度过渡RNN的优势，适用于处理不同时间尺度的序列数据。在字符级语言建模任务上，FS-RNN在Penn Treebank和Hutter Prize Wikipedia数据集上取得优秀表现，超过现有技术。实验证明，FS-RNN能有效学习长期依赖性并快速适应输入变化。

摘要由CSDN通过智能技术生成

Fast Slow RNN ——译文

论文《Fast-Slow Recurrent Neural Networks》
论文原文连接
瑞士苏黎世联邦理工学院

在文中，我们通过提出一种新型的递归神经网络（RNN）架构，即快速慢速RNN（FS-RNN）来应对这一挑战。 FS-RNN结合了多尺度RNN和深度过渡RNN的优势，因为它处理不同时间尺度上的顺序数据，并从一个时间步到下一个步骤学习复杂的过渡函数。我们在两个字符级语言建模数据集Penn Treebank和Hutter Prize Wikipedia上评估FS-RNN，其中我们分别将现有技术结果改进为1.19和1.25位/字符（BPC）。此外，两个FS-RNN的集合在Hutter Prize Wikipedia上获得了1.20 BPC，超过了BPC测量方面最着名的压缩算法。我们还对FS-RNN的学习和网络动态进行了实证研究，解释了与其他RNN架构相比改进的性能。我们的方法是通用的，因为任何类型的RNN小区都是FS-RNN架构的可能构建块，因此可以灵活地应用于不同的任务。

1 介绍

处理，建模和预测可变长度的顺序数据是机器学习领域的主要挑战。近年来，递归神经网络（RNNs）[33,31,38,40]一直是应对这一挑战的最流行的工具。RNN已成功应用于改善语言建模和语音识别等复杂任务的最新结果。一种流行的RNN变种是长期短期记忆（LSTMs）[18]，它们已被提出来解决消失梯度问题[16,5,17]。与标准RNN相比，LSTM保持恒定的错误流，因此更适合学习长期依赖性。我们的工作有助于正在进行的关于如何将若干RNN小区互连以及促进长期依赖性学习的目标，支持有效的信息层次表示，利用深度浅层网络的计算优势以及提高训练和计算效率的辩论。测试。在深度RNN架构中，RNN或LSTM逐层堆叠在一起[9,20,11]。附加层使网络能够学习复杂的输入到输出关系，并鼓励有效的信息分层表示。在多尺度RNN架构[34,9,24,6]中，通过较不频繁地更新较高层来强制执行不同时间尺度上的操作，这进一步促进了信息的有效分层表示。较高层的更新速度较慢导致计算高效的实现，并产生有利于学习长期依赖的短梯度路径。在深度过渡RNN架构中，中间顺序连接的层插入在两个连续的隐藏状态之间，以便将过渡功能的深度从一个时间步长增加到下一个时间步，例如在深度过渡网络[30]或递归公路网络中（ RHN）[42]。中间层使网络能够学习复杂的非线性转换函数。因此，该模型利用了这样的事实：深度模型可以比浅模型更有效地表示某些函数[4]。我们将这些网络解释为共享隐藏状态的浅层网络，而不是单个深层网络。尽管在实践中是相同的，但是这种解释使得通过顺序连接单元将任何RNN单元转换为深RNN变得微不足道，参见图2b。

在这里，我们提出了快速慢速RNN（FS-RNN）架构，这是一种互连RNN小区的新方法，它结合了多尺度RNN和深度过渡RNN的优点。在其最简单的形式中，该架构由较低层级中的两个顺序连接的快速操作RNN小区和较高层级中的慢速操作RNN小区组成，参见图1和第3节。我们在两个标准字符上评估FS-RNN级别语言建模数据集，即Penn Treebank和Hutter Prize Wikipedia。此外，在[30]之后，我们提出了一个实证分析，揭示了FS-RNN架构优于其他RNN架构的优势。
本文的主要贡献是：

我们提出FS-RNN作为一种新颖的RNN架构
我们改善Penn Treebank和Hutter Prize Wikipedia数据集的最新成果。
我们通过使用两个FS-RNN的集合来超越在Hutter Prize Wikipedia上评估的最着名的文本压缩算法的BPC性能。
我们凭经验证明FS-RNN结合了多尺度RNN和深度过渡RNN的优势，因为它可以有效地存储长期依赖性，并且可以快速适应意外输入。
我们在以下URL https://github.com/amujika/Fast-Slow-LSTM中提供我们的代码

2 相关工作

在下文中，我们将更详细地回顾与我们的方法相关的工作。首先，我们关注深度过渡RNN和多尺度RNN，因为这两种架构是FS-RNN架构的主要灵感来源。然后，我们讨论我们的方法与这两种架构的不同之处。最后，我们回顾了解决处理顺序数据时学习长期依赖关系问题的其他方法。

我们的FS-RNN架构借用了深度过渡RNN和多尺度RNN的元素。与多尺度RNN的主要区别在于我们的较低层级层及时放大，也就是说，它比输入序列自然给出的时间刻度更快地操作。深度过渡RNN的主要区别在于我们促进长期依赖性的方法，即我们采用在慢速时间尺度上运行的RNN。

3 Fast Slow RNN

我们提出了FS-RNN架构，参见图1.它由k个顺序连接的RNN小区F1，…组成。
，较低层级的Fk和较高层级的一个RNN小区S.我们叫F1 ,. ，Fk为Fast cell，S为Slow cell，相应的分层为Fast和Slow层。 S接收来自F1的输入并将其状态馈送到F2。 F1接收顺序输入数据xt，并且Fk输出序列的下一个元素的预测概率分布yt。
在这里插入图片描述
直观地说，快速单元能够从一个时间步到下一个步骤学习复杂的过渡函数。
慢单元在时间上较远的顺序输入之间产生较短的梯度路径，因此，它有助于学习长期依赖性。因此，FS-RNN架构结合了深度过渡RNN和多尺度RNN的优点，见第2节。
由于任何类型的RNN小区都可以用作FS-RNN架构的构建块，我们陈述了任意RNN小区的FS-RNN的正式更新规则。我们将RNN单元Q定义为可微分函数f Q（h，x），其将隐藏状态h和附加输入x映射到新隐藏状态。注意，x可以是输入数据或来自较高或较低分级层中的单元的输入。如果单元格没有收到额外的输入，那么我们将省略x。以下等式定义了任意RNN信元F1，…，Fk和S的FS-RNN架构.
在这里插入图片描述
输出yt被计算为hF t k的仿射变换。可以扩展FS-RNN架构，以便通过添加分级层来进一步促进长期依赖性的学习，每个分级层在比下面的时间更慢的时间尺度上运行，类似于发条RNN [24]。但是，对于第4节中考虑的任务，我们观察到这导致训练数据过度拟合，即使应用正则化技术并降低了测试时的性能。因此，我们不会在本文中进一步研究模型的这种扩展，即使它可能对其他任务或更大的数据集有益。
在第4节的实验中，我们使用LSTM单元作为FS-RNN架构的构建块.为了完整起见，我们说明了LSTM Q的更新函数f Q.LSTM的状态是一对（ht，ct），由隐藏状态和单元状态组成。函数f Q映射先前的状态并根据输入（ht-1，ct-1，xt）到下一个状态（ht，ct）
在这里插入图片描述
其中ft，it和ot通常被称为遗忘，输入和输出门，gt是新的候选单元状态。
此外，WhQ，WxQ和bQ是可学习的参数，σ表示sigmoid函数，⊙表示逐元素乘法。

4 实验

对于实验，我们考虑作为FS-RNN的Fast-Slow LSTM（FS-LSTM），其中每个RNN小区是LSTM小区。 FS-LSTM在两个字符级语言建模数据集上进行评估，即Penn Treebank和Hutter Prize Wikipedia，在本节中将其称为enwik8。该任务包括预测给定所有先前字符的下一个字符的概率分布。在4.1节中，我们将FS-LSTM的性能与其他方法进行了比较。在4.2节中，我们凭经验比较了不同RNN架构的网络动态，并展示了FS-LSTM结合了深度过渡RNN和多尺度RNN两者的优点。
在这里插入图片描述

5 结论

在本文中，我们提出了FS-RNN架构。
据我们所知，它是第一个融合了多尺度和深度过渡RNN概念的架构。 FS-RNN架构改进了在Penn Treebank和Hutter Prize Wikipedia数据集上评估的字符级语言建模的最新结果。两个FS-RNN的集合比最着名的压缩算法实现更好的BPC性能。进一步的实验证明，慢速单元使网络能够学习长期依赖性，而快速单元使网络能够快速适应意外的输入，并从一个时间步到下一个步骤学习复杂的过渡功能。
我们的FS-RNN架构提供了连接RNN小区的通用框架，因为任何类型的RNN小区都可以用作构建块。因此，将架构应用于不同任务具有很大的灵活性。例如，使用具有良好长期记忆的RNN小区，如EURNN [21]或NARX RNN [25,8]，对于慢小区可能会增加FS-RNN架构的长期记忆。因此，FS-RNN架构可以改善许多不同应用中的性能。