Fast Slow RNN ——译文

FS-RNN是一种新型的递归神经网络架构,结合了多尺度RNN和深度过渡RNN的优势,适用于处理不同时间尺度的序列数据。在字符级语言建模任务上,FS-RNN在Penn Treebank和Hutter Prize Wikipedia数据集上取得优秀表现,超过现有技术。实验证明,FS-RNN能有效学习长期依赖性并快速适应输入变化。
摘要由CSDN通过智能技术生成

Fast Slow RNN ——译文

论文《Fast-Slow Recurrent Neural Networks》
论文原文连接
瑞士 苏黎世联邦理工学院

在文中,我们通过提出一种新型的递归神经网络(RNN)架构,即快速慢速RNN(FS-RNN)来应对这一挑战。 FS-RNN结合了多尺度RNN和深度过渡RNN的优势,因为它处理不同时间尺度上的顺序数据,并从一个时间步到下一个步骤学习复杂的过渡函数。我们在两个字符级语言建模数据集Penn Treebank和Hutter Prize Wikipedia上评估FS-RNN,其中我们分别将现有技术结果改进为1.19和1.25位/字符(BPC)。此外,两个FS-RNN的集合在Hutter Prize Wikipedia上获得了1.20 BPC,超过了BPC测量方面最着名的压缩算法。我们还对FS-RNN的学习和网络动态进行了实证研究,解释了与其他RNN架构相比改进的性能。我们的方法是通用的,因为任何类型的RNN小区都是FS-RNN架构的可能构建块,因此可以灵活地应用于不同的任务。

1 介绍

处理,建模和预测可变长度的顺序数据是机器学习领域的主要挑战。近年来,递归神经网络(RNNs)[33,31,38,40]一直是应对这一挑战的最流行的工具。RNN已成功应用于改善语言建模和语音识别等复杂任务的最新结果。一种流行的RNN变种是长期短期记忆(LSTMs)[18],它们已被提出来解决消失梯度问题[16,5,17]。与标准RNN相比,LSTM保持恒定的错误流,因此更适合学习长期依赖性。我们的工作有助于正在进行的关于如何将若干RNN小区互连以及促进长期依赖性学习的目标,支持有效的信息层次表示,利用深度浅层网络的计算优势以及提高训练和计算效率的辩论。测试。在深度RNN架构中,RNN或LSTM逐层堆叠在一起[9,20,11]。附加层使网络能够学习复杂的输入到输出关系,并鼓励有效的信息分层表示。在多尺度RNN架构[34,9,24,6]中,通过较不频繁地更新较高层来强制执行不同时间尺度上的操作,这进一步促进了信息的有效分层表示。较高层的更新速度较慢导致计算高效的实现,并产生有利于学习长期依赖的短梯度路径。在深度过渡RNN架构中,中间顺序连接的层插入在两个连续的隐藏状态之间,以便将过渡功能的深度从一个时间步长增加到下一个时间步,例如在深度过渡网络[30]或递归公路网络中( RHN)[42]。中间层使网络能够学习复杂的非线性转换函数。因此,该模型利用了这样的事实:深度模型可以比浅模型更有效地表示某些函数[4]。我们将这些网络解释为共享隐藏状态的浅层网络,而不是单个深层网络。尽管在实践中是相同的,但是这种解释使得通过顺序连接单元将任何RNN单元转换为深RNN变得微不足道,参见图2b。

在这里,我们提出了快速慢速RNN(FS-RNN)架构,这是一种互连RNN小区的新方法,它结合了多尺度RNN和深度过渡RNN的优点。在其最简单的形式中,该架构由较低层级中的两个顺序连接的快速操作RNN小区和较高层级中的慢速操作RNN小区组成,参见图1和第3节。我们在两个标准字符上评估FS-RNN级别语言建模数据集,即Penn Treebank和Hutter Prize Wikipedia。此外,在[30]之后,我们提出了一个实证分析,揭示了FS-RNN架构优于其他RNN架构的优势。
本文的主要贡献是:

  • 我们提出FS-RNN作为一种新颖的RNN架构
  • 我们改善Penn Treebank和Hutter Prize Wikipedia数据集的最新成果。
  • 我们通过使用两个FS-RNN的集合来超越在Hutter Prize Wikipedia上评估的最着名的文本压缩算法的BPC性能。
  • 我们凭经验证明FS-RNN结合了多尺度RNN和深度过渡RNN的优势,因为它可以有效地存储长期依赖性,并且可以快速适应意外输入。
  • 我们在以下URL https://github.com/amujika/Fast-Slow-LSTM中提供我们的代码

2 相关工作

在下文中,我们将更详细地回顾与我们的方法相关的工作。首先,我们关注深度过渡RNN和多尺度RNN,因为这两种架构是FS-RNN架构的主要灵感来源。然后,我们讨论我们的方法与这两种架构的不同之处。最后,我们回顾了解决处理顺序数据时学习长期依赖关系问题的其他方法。

我们的FS-RNN架构借用了深度过渡RNN和多尺度RNN的元素。与多尺度RNN的主要区别在于我们的较低层级层及时放大,也就是说,它比输入序列自然给出的时间刻度更快地操作。深度过渡RNN的主要区别在于我们促进长期依赖性的方法,即我们采用在慢速时间尺度上运行的RNN。

3 Fast Slow RNN

我们提出了FS-RNN架构,参见图1.它由k个顺序连接的RNN小区F1,…组成。
,较低层级的Fk和较高层级的一个RNN小区S.我们叫F1 ,. ,Fk为Fast cell,S为Slow cell,相应的分层为Fast和Slow层。 S接收来自F1的输入并将其状态馈送到F2。 F1接收顺序输入数据xt,并且Fk输出序列的下一个元素的预测概率分布yt。
在这里插入图片描述
直观地说,快速单元能够从一个时间步到下一个步骤学习复杂的过渡函数。
慢单元在时间上较远的顺序输入之间产生较短的梯度路径,因此,它有助于学习长期依赖性。因此,FS-RNN架构结合了深度过渡RNN和多尺度RNN的优点,见第2节。
由于任何类型的RNN小区都可以用作FS-RNN架构的构建块,我们陈述了任意RNN小区的FS-RNN的正式更新规则。我们将RNN单元Q定义为可微分函数f Q(h,x),其将隐藏状态h和附加输入x映射到新隐藏状态。注意,x可以是输入数据或来自较高或较低分级层中的单元的输入。如果单元格没有收到额外的输入,那么我们将省略x。以下等式定义了任意RNN信元F1,…,Fk和S的FS-RNN架构.
在这里插入图片描述
输出yt被计算为hF t k的仿射变换。可以扩展FS-RNN架构,以便通过添加分级层来进一步促进长期依赖性的学习,每个分级层在比下面的时间更慢的时间尺度上运行,类似于发条RNN [24]。但是,对于第4节中考虑的任务,我们观察到这导致训练数据过度拟合,即使应用正则化技术并降低了测试时的性能。因此,我们不会在本文中进一步研究模型的这种扩展,即使它可能对其他任务或更大的数据集有益。
在第4节的实验中,我们使用LSTM单元作为FS-RNN架构的构建块.为了完整起见,我们说明了LSTM Q的更新函数f Q.LSTM的状态是一对(ht,ct),由隐藏状态和单元状态组成。函数f Q映射先前的状态并根据输入(ht-1,ct-1,xt)到下一个状态(ht,ct)
在这里插入图片描述
其中ft,it和ot通常被称为遗忘,输入和输出门,gt是新的候选单元状态。
此外,WhQ,WxQ和bQ是可学习的参数,σ表示sigmoid函数,⊙表示逐元素乘法。

4 实验

对于实验,我们考虑作为FS-RNN的Fast-Slow LSTM(FS-LSTM),其中每个RNN小区是LSTM小区。 FS-LSTM在两个字符级语言建模数据集上进行评估,即Penn Treebank和Hutter Prize Wikipedia,在本节中将其称为enwik8。该任务包括预测给定所有先前字符的下一个字符的概率分布。在4.1节中,我们将FS-LSTM的性能与其他方法进行了比较。在4.2节中,我们凭经验比较了不同RNN架构的网络动态,并展示了FS-LSTM结合了深度过渡RNN和多尺度RNN两者的优点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 结论

在本文中,我们提出了FS-RNN架构。
据我们所知,它是第一个融合了多尺度和深度过渡RNN概念的架构。 FS-RNN架构改进了在Penn Treebank和Hutter Prize Wikipedia数据集上评估的字符级语言建模的最新结果。两个FS-RNN的集合比最着名的压缩算法实现更好的BPC性能。进一步的实验证明,慢速单元使网络能够学习长期依赖性,而快速单元使网络能够快速适应意外的输入,并从一个时间步到下一个步骤学习复杂的过渡功能。
我们的FS-RNN架构提供了连接RNN小区的通用框架,因为任何类型的RNN小区都可以用作构建块。因此,将架构应用于不同任务具有很大的灵活性。例如,使用具有良好长期记忆的RNN小区,如EURNN [21]或NARX RNN [25,8],对于慢小区可能会增加FS-RNN架构的长期记忆。因此,FS-RNN架构可以改善许多不同应用中的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值