RNN with Adaptive Computation Time

原创 2017年01月03日 22:52:44

最近看完了一篇论文《Adaptive Computation Time for Recurrent Neural Networks》,目前正在做相关实验,把总结的PPT贴出来分享下,后面是论文的主体翻译。也可参考我之前翻译的一篇博文:RNN的四种代表性扩展—Attention and Augmented Recurrent Neural Networks(二)
里面有关于“Adaptive Computation Time(自适应计算次数)”的形象解释。建议论文和我翻译的博文结合看,会更好理解ACT的思想。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

论文翻译:《Adaptive Computation Time for Recurrent Neural Networks》:

该论文介绍了一种“适应性计算次数(ACT)”算法,该算法允许RNN网络接收一个input后,学习要计算多少步后产出一个output。ACT对整个网络架构的变动需求并不大,是一个确定性的网络结构,并且不用向参数梯度中添加任何噪音。在实验上,我们用了四个合成性问题:确定二进制向量的奇偶性,应用二进制逻辑运算,添加整数和排序实数。综合来看,使用ACT算法在性能上有明显的提升。另外,我们也实验了character-level的语言模型,然后使用ACT模型在效果上并没有产生多大的性能提升。不管怎样,该算法算是一个比较新颖的想法。

皮埃尔·费马特能够在一个假设(如果不是证明)的边缘写了一个定理,花了三个半世纪和大量的数学来解决[35]。简单点的例子是,我们期望在两个城市之间找到一条令人满意的路由,或者检查一个特定事实所需的查询数量,在不同情况下变化很大,并且不可预测。 然而,大多数机器学习算法不能动态地使它们所采用的计算量适应它们执行的任务的复杂性。

对于人工神经网络,其中神经元通常排列在密集连接的层中,计算时间的复杂度一般是网络中层到层转换的数量。在前馈网络中,这由网络深度或堆叠在彼此顶部的层的数量控制。 对于循环网络,变换的数量还取决于输入序列的长度 - 其可以被填充或以其它方式扩展以允许额外的计算。就目前证据表明,通过增加深度可以更好的提升网络性能,而最近的研究结果表明增加序列的长度也有相似功效[ 31, 33, 25]。然后在确定对特定输入向量的计算量时,目前还需要先验(priori)来确定。一个解决方案是简单地使每个网络非常深,并设计其架构,以减轻与长链的迭代[29,17]相关的消失梯度问题[13]。然而为了能即提高计算性能又能减小学习的困难度,似乎在每次输入和输出之间进行动态的改变网络“思考(即计算)”的步数是更可取的。在这种情况下,在沿着序列的每个步骤(即token)处,网络的有效深度变成了一个接收输入的动态函数。

这里使用的方法是增加了一个sigmoidal halting单元作为网络的输出,该sigmoid的激活值决定了计算是否需要继续的概率。得到的halting分布是一个平均场向量,将它用来作为网络的输出和沿着序列在内部网络中状态的传播。一个随机的方案是根据halting分布中的二进制样本来决定是halt还是continue,该技术最近已经应用到了基于场景理解的RNN[7]。而且,平均场方法使用了一个outputs和states的平滑函数,这样的优势使其不需要使用随机梯度估计。我们希望使用平均场方法在遇到长序列halting决策时可以获得益处,因为每一个决策都有可能回会影响到所有后续序列,并且采样噪音也会迅速积累(正如在策略梯度方法[36]中观察到的)。
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

版权声明:本文为博主原创文章,未经许可禁止转载。只为学习总结,整理时参考资料太多,有些引用没有提及,如有发现,感谢通知并修改!

相关文章推荐

聚焦和增强卷积神经网络

http://geek.csdn.net/news/detail/106118 卷积神经网络是一种主流的深度学习模型,它可以用神经网络模型来处理序列化的数据,比如文本、音频和视频数据。它能把...

CVPR 2016-12-08

[1] arXiv:1612.02401 [pdf, other] DeMoN: Depth and Motion Network for Learning Monocular Stereo D...

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization论文理解

在这之前只有Fast Patch-based Style Transfer of Arbitrary Style这篇论文是实现任意风格的,然而这篇论文的实现效果并不是很好,处理的结果很像是两张图融合的...

Real-time tracking of multiple objects using adaptive correlation filters with complex constraints

多目标及时跟踪,使用自适应带有复杂约束的相关过滤器。 文章分为以下一个部分: 1.对于多目标识别的受限的组合过滤器。 2及时系统,多类对象的检测和分类,跟踪。 3呈现这结果:在连续的帧下,这系统获...

读书笔记:Deep Learning [Ada-Computation&ML series]--chapter10.Sequence Modeling:RNN

1.RNN的操作基于vecor X(t),长度从1->t,通常作用域这些序列组成的minibatch 2.如果要求h(t)足够丰富,可以近似恢复输入序列,则相当于auto encoder. 3.三种重...
  • lebula
  • lebula
  • 2016年12月15日 04:04
  • 413

Practical Rendering and Computation with Direct3D 11学习笔记(2.1.1)

Practical Rendering and Computation with Direct3D 11学习笔记 第二章 Direct3D 11  资源 2.1 资源概述 资源:分两种  每种有几个子...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:RNN with Adaptive Computation Time
举报原因:
原因补充:

(最多只允许输入30个字)