PreRNN+:Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning

《PreRNN+:Towards A Resolution of the Deep-in-Dilemma in Saptiotemporal Predictive Learning》论文解读

Abstract

我们提出了一种用于时空预测学习的PreRNN++网络。为了追求建模短期视频的动态性,我们提出了一种新的循环结构——具有级联双记忆的因果LSTM,从而使我们的网络在时间上更深入。为了缓解深度预测模型中梯度传播的困难,我们提出了一个Gradient Highway Unit(GHU),它为梯度流从输出返回到以前的长期输入提供了可选的快速路径。梯度Highway单元与因果LSTM无缝协作,使模型能够自适应地捕获短期和长期视频依赖关系。我们的模型在合成和真实的视频数据集上实现了最先进的预测结果,显示了它在建模纠缠(entangled)运动的能力。

1. Introduction

时空预测学习是以一种自监督(有时称为无监督)的方式从无标签视频数据中学习特征,并使用它们执行特定的任务。这种学习范式已使实际应用受益。例如降水预报,交通流预测,物理交互模拟。
准确的预测学习方法需要在不同的时间尺度上有效地建模视频动态。考虑两种典型的情况:
(i)当发生突变时,未来的图像应该在附近的帧上生成,而不是在远处的帧上生成,这就要求预测模型学习短期的视频动态;
(ii)当场景中运动物体频繁纠缠时,在生成的帧中很难将它们分离。这就要求预测模型在遮挡发生之前回想起之前的上下文。因此,应适应地考虑视频的短期和长期关系

1.1时空建模中的深时序结构和消失梯度难题

为了捕获长期帧依赖,RNN最近被应用于视频预测学习。但大多数方法沿袭了传统的RNNs链结构,没有充分利用网络深度。相邻RNN状态从一个时间步到下一个时间步的转换通过简单的函数进行建模,尽管理论证据表明,在空间特征提取和序列建模两方面,深度网络的效率都呈指数级提高。我们认为,使网络在时间上更深入,即增加从输入到输出的循环状态的数量,将显著增强其学习短期视频动态的能力。

基于此, P r e R N N PreRNN PreRNN 被提出来了,从一帧过渡下一帧时它应用复杂的非线性函数,构建了基于 L S T M LSTM LSTM的双记忆结构。不幸的是,这个复杂的结构很容易遭受退化问题,有专家认为梯度在时间反向传播 ( B P T T ) (BPTT) (BPTT)过程中呈指数衰减。在时空预测学习中存在一个困境: 越来越深的时间网络已经被设计用于复杂的视频动态,同时也引入了更多的困难在梯度传播。因此,如何在深度时序预测模型中保持梯度的稳定流动,是一个值得探索的路径。我们的关键见解是在RNN(state-to-state)和(layer-to-layer)之间建立自适应连接,同时为我们的模型提供较长的路由和较短的路由,从输入帧到预期的未来预测。

Related work

为了处理未来预测的内在多样性,Babaeizadeh等人(2018)和Denton & Fergus(2018)探索了视频预测模型中的随机变分方法。但很难评估这些随机模型的性能。(good fellow et al., 2014;Denton et al., 2015)利用生成式对抗网络进行视频预测。这些方法试图通过将图像锐度作为区分真/假视频帧的主要特征,并来保持生成图像的锐度。但是,这些模型的性能在很大程度上依赖于不稳定的对抗网络。

综上所述,之前的视频预测模型存在不同的缺陷。基于cnn的方法在一次传递中只能预测有限的帧数。他们关注长期运动中的空间表象而咋时间上关注力弱。相比之下,基于 R N N RNN RNN的方法通过循环连接捕获时间动态性。但是,他们的预测受到了 R N N RNN RNN中众所周知的消失梯度问题的影响,因此特别依赖于最近的帧。在我们的初步实验中,很难在生成的未来帧中保存运动物体的形状,特别是在它们重叠之后。针对这一问题,本文提出了一种新的梯度highway循环单元,该单元吸收了以往视频帧中的知识,有效地利用了长期信息。

回顾Deep-in-Time架构

增加网络深度的一般方法是叠加多个隐层。一个典型的用于视频预测的堆叠递归网络如图1(A)所示。回归单元ConvLSTM的设计目的是通过门控结构正确地保存和忘记过去的信息,然后将其与当前的空间表示相融合。然而,堆叠 C o n v L S T M ConvLSTM ConvLSTM并没有为逐步循环的状态转换增加额外的建模能力。
在这里插入图片描述

在我们的初步观察中,增加step-to-step的LSTM的逐步过渡深度可以显著提高其对短期动态的建模能力。如图1(b)所示,隐藏状态H内存状态C呈之字形更新。水平相邻状态间的扩展递归深度使网络能够在短时间内学习邻近帧的复杂非线性过渡函数。然而,它引入了消失梯度问题,使它难以捕获的长期相关性从视频。尽管一个简化的细胞结构,recurrent highway,可能在一定程度上缓解这个问题,但它牺牲了时空建模能力,正如前面所描述的dilemma。
在这里插入图片描述
PredRNN 是一种性能良好的预测学习方法,基于深度过渡架构,在叠加时空LSTM (ST-LSTM)中增加了相邻时间步间的额外连接,追求长期一致性和短期递归深度。图1(C)说明了它的信息流。PredRNN利用双重记忆机制并将其结合,通过一个简单的串联与门控,垂直的横向更新时间记忆C具有转换空间记忆m。尽管提供了有利的信息流动时空的记忆,但这个平行内存结构后跟一个连接操作符,和卷积1×1层固定数量的通道,不是一个有效的机制来提高递归深度。此外,作为叠加递归网络和深度转移网络的直接组合,PredRNN仍然面临着与以往模型相同的梯度消失问题。
Figure2

PreRNN++

在本节中,我们将给出改进的预测递归神经网络(PredRNN++)的详细描述。与上述deep-in-time性架构相比,我们的方法有两个关键的见解:

  • 第一,提出了一种新的时空的记忆机制,因果LSTM,为了增加递归深度从一个时间步,这意味着,源自一个更强大的建模能力较强的空间相关性和短期动力学。
  • 其次,它试图解决梯度的反向传播问题,以便于长期的视频建模。它构建了一条替代的梯度Highway,一条从未来输出到遥远输入的更短的路线。

1 因果LTSM

因果LSTM是向recurrent transitions中添加更多的非线性层,增加一种状态到另一种状态的网络深度。如图3所示。
在这里插入图片描述
一个因果LSTM单元包含两个memories,temporal memory C t k C_t^k Ctk和空间memory M t k M_t^k Mtk,下标 t t t表示time step,上标表示堆叠因果LSTM中的第k个隐藏层。循环时序memory直接决定于它之前的状态 C t k C_t^k Ctk,并通过遗忘门 f t f_t ft、输入门 i t i_t it和输入调制门 g t g_t gt进行控制。当前空间memory M k t M_k^t Mkt在深度转换路径上依赖 M k − 1 M_{k−1} Mk1。具体来说,从底层(k=1),我们将 ( t − 1 ) (t−1) (t1)处的最上层空间内存分配给 M k − 1 M_{k−1} Mk1。不同于传统的LSTM,因果LSTM采用级联极值,其中空间memory是一个特别的通过另一组门结构的时间记忆函数。因果LSTM在第 k k k层的更新方程为:
在这里插入图片描述
最终生成的帧中的每一个像素在每一个时间步都有更大的输入量接受域,这使得预测模型对短期视频动态和突然变化具有更强的建模能力。

我们还考虑了另一种时空因果LSTM变体。我们交换两个存储器的位置,首先更新 M k t M_k^t Mkt,然后基于 M k t M_k^t Mkt计算 C k t C_k^t Ckt。第5节将对这两种替代结构进行实验比较,在实验中我们将证明这两种结构都比原始的时空LSTM具有更好的视频预测结果。

Gradient Highway

除了短期的视频动态之外,因果型LSTM在长期内往往会遇到梯度反向传播的困难。特别是,时间记忆 C k t C_k^t Ckt可能会因为较长的过渡而忘记过时的帧外观。这样一个反复出现的结构仍然是不确定的,特别是对于周期性运动或频繁遮挡的视频。我们需要一条信息Highway来学习跳帧关系。

理论证据表明,Highway(Srivas- tava et al., 2015b)能够在非常深的前馈网络中有效地传递梯度。我们将这一思想应用到递归网络中,以防止长期梯度的快速消失,并提出了一种新的时空重现结构——梯度Highway Unit(Gradient Highway Unit, GHU),其示意图如图3所示。公式如下:
在这里插入图片描述
其中W••表示卷积滤波器。St被命名为开关门,因为它可以转换输入 P t P_t Pt和隐藏状态 Z t Z_t Zt之间的自适应学习。上面这个等式可以简单地表示为 Z t Z_t Zt = GHU( X t X_t Xt, Z t − 1 Z_{t−1} Zt1)。

为了获得更强的时空建模能力,我们建立了一个具有因果LSTMs的及时网络,然后尝试用GHU来处理梯度消失问题。最终的体系结构如图3所示。具体地说,我们堆叠L个因果lstm,并在第1个和第2个因果lstm之间注入一个GHU。整个模型的关键方程如下(对于 3 ≤ k ≤ L 3≤k≤L 3kL):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这种架构中,Gradient highway与因果LSTMs无缝协作,分别捕获长期和短期视频依赖关系。快速更新隐藏状态 Z t Z_t Zt,Gradient Highway展示了另一种快速从第一个到最后一个时间步(图3中的蓝线)。但不像时序下一跳连接,它控制的 Z t − 1 Z_{t−1} Zt1的比例并且通过开关门 S t S_t St深度过度特征 H t 1 H_t^1 Ht1。能够自适应学习的长期帧和短期帧的关系。

我们还探索了其他的结构变体,通过将GHU注入不同的隐藏层槽,例如,在第 ( L − 1 ) (L−1) (L1)层和第 L L L层因果lstm之间。实验比较将在第5节中给出。以上讨论的网络性能优于其他网络,表明了对原始输入进行建模的重要性,而不是对更高层次的抽象表示。

在网络细节方面,我们观察到隐藏状态信道的数量,特别是底层的隐藏状态信道的数量,对最终的预测性能有很大的影响。因此,我们提出了一个5层架构,追求高预测质量和合理的训练时间和内存使用,包括4个因果LSTM,分别有128、64、64、64个通道,以及底部因果LSTM层顶部的128通道梯度高速公路单元。我们还将所有循环单元内的卷积滤波器的大小设置为5。

reference

[1] Wang, Y. , Gao, Z. , Long, M. , Wang, J. , & Yu, P. S. . (2018). Predrnn++: towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值