PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning 翻译

最新推荐文章于 2024-03-28 15:22:30 发布

Duncan_yitong

最新推荐文章于 2024-03-28 15:22:30 发布

阅读量1.3k

点赞数

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning

PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning
Abstract
1.Introduction
- 1.1. Deep-in-Time Structures and Vanishing Gradients Dilemma in Spatiotemporal Modeling
2. Related Work
3. Revisiting Deep-in-Time Architectures
4. PredRNN++
- 4.1. Causal LSTM
- 4.2. Gradient Highway
5. Experiments
- 5.1. Moving MNIST Dataset
- 5.2. KTH Action Dataset
6. Conclusions
7.Acknowledgements
References

Abstract

提出了一种用于时空预测学习的循环网络PredRNN++。为了追求短期视频动态的强大建模能力，我们利用一种新的循环结构，称为Causal LSTM和级联双记忆，使我们的网络在时间上更深入。为了缓解深度预测模型中梯度传播的困难，我们提出了一种梯度捷径单元，该单元为梯度流从输出流返回到远程先前输入流提供了可选的快速路径。梯度捷径单元与Causal LSTMs无缝协作，使我们的模型能够自适应地捕获短期和长期的视频依赖关系。我们的模型在人造和真实的视频数据集上都获得了最先进的预测结果，显示了它在模拟缠结运动方面的能力。

1.Introduction

时空预测学习是指以一种自监督(有时称为无监督)的方式从无标签的视频数据中学习特征，并使用它们来执行特定的任务。这种学习范式已经或可能有益于实际应用，例如降水预报(Shi et al.， 2015;(Wang et al.， 2017)，交通流预测(Zhang et al.， 2017;(Xu et al.， 2018)和物理交互模拟(Lerer et al.， 2016;芬恩等人，2016)。
准确的预测学习方法需要在不同的时间尺度上对视频动态进行有效的建模。考虑两种典型情况：（1）当突然发生变化时，未来图像的生成应该基于附近的帧上，而不是基于远处的帧上，这要求预测模型学习短期的视频动态；（2）当场景中的运动对象经常纠缠时，在生成的帧中很难将它们分开。这就要求预测模型在遮挡发生之前回忆以前的上下文。因此，应自适应地考虑视频的短期和长期关系

1.1. Deep-in-Time Structures and Vanishing Gradients Dilemma in Spatiotemporal Modeling

为了捕获长期的帧依赖关系，循环神经网络(RNNs) (Rumelhart et al.， 1988;Werbos, 1990;Williams & Zipser(1995)最近被应用于视频预测学习(Ranzato et al.， 2014)。然而，大多数方法(Srivastava et al.， 2015a;Shi et al.， 2015;Patraucean等人(2016)遵循传统的RNNs链结构，没有充分利用网络深度。尽管理论证据表明，更深层次的网络在空间特征提取(Bianchini & Scarselli, 2014)和序列建模(Pascanu et al.， 2013)两方面都更为有效，但相邻RNN状态之间从一个时间步长到下一个时间步长的过渡却是通过简单函数来建模的。我们认为，使网络实时深入，即增加从输入到输出的循环状态数，可以显著增强网络学习短期视频动态的能力。
受此启发，一种名为PredRNN (Wang et al.， 2017)的先进模型将复杂的非线性过渡函数从一帧转换到下一帧，在长短时记忆(LSTM)的基础上构造了双记忆结构(Hochreiter & Schmidhuber, 1997)。不幸的是，这个复杂的结构很容易遭受消失的大问题(Bengio et al.， 1994);(Pascanu et al.， 2013)，梯度的大小在反向传播过程中呈指数衰减(BPTT)。在时空预测学习中存在一个难题：在为复杂的视频动态设计越来越深的时间网络的同时，在梯度传播中引入了更多的困难。因此，如何在深度-时间预测模型中保持梯度的稳定流动，是一个值得探索的路径。我们的主要观点是在RNN状态或层之间建立自适应连接，同时为我们的模型提供更长的路径和更短的路径，从输入帧到预期的未来预测。

2. Related Work

在这里插入图片描述

循环神经网络在视频预测中有着广泛的应用。Ranzato等(2014)构建了一个RNN模型来预测下一帧。Srivastava等(2015a)将序列应用于序列LSTM框架进行多帧预测。Shi等(2015)对该模型进行了扩展，提出了卷积LSTM (ConvLSTM)，将卷积运算代入循环连接中。Finn等人(2016)开发了一个动作条件预测模型，该模型明确地预测了之前帧的像素运动分布。Lotter等(2017)将关注点主要放在提高下一帧的预测质量，建立了基于ConvLSTMs的预测模型。Villegas等人(2017a)提出了一种将信息组件(运动和内容)分离成不同编码器路径的网络。Patraucean等(2016)预测了中间像素流，并将其应用于预测图像像素。Kalchbrenner等(2017)提出了一种结合门控CNN和ConvLSTM结构的复杂模型。它利用成熟而复杂的像素网络逐个估计视频中的像素值(van den Oord et al.， 2016)，因此预测效率很低。Wang等人(2017)提出了一种具有两个记忆单元的深度过渡RNN，其中时空记忆流经不同RNN层的所有RNN状态。
卷积神经网络(CNNs)也涉及到视频预测，尽管它们只对固定大小的输入进行表示。Oh等人(2015)定义了一个基于cnn的Atari游戏预测自编码器模型。De Brabandere等(2016)将卷积网络的滤波操作运用到了特定的输入样本。Villegas等人(2017b)提出了一个包含附加注释的人类关节数据的三阶段框架，以进行更长时间的预测。
为了应对未来预测内在的的多样性，Babaeizadeh等人(2018)和Denton & Fergus等人(2018)在视频预测模型中探索了随机变分方法。但是很难对这些随机模型的性能进行评估。生成性对抗网络(Good- fellow et al.， 2014;采用Denton et al.， 2015)进行视频预测(Mathieu et al.， 2016;Vondrick等人，2016;Bhattacharjee & Das, 2017;丹顿等人，2017;陆等人，2017;(图利亚科夫等，2018)。这些方法试图通过将生成的图像作为区分真假视频帧的主要特征来保持图像的清晰度。但是，这些模型的性能在很大程度上取决于对不稳定的对抗网络的仔细训练。
总之,之前的视频预测模型产生了不同的缺点。基于cnn的方法一次预测出有限数量的帧。他们专注于空间信息,而不是长期运动中时间上的关联。相比之下,基于rnn的方法通过循环连接捕获时间动态。然而,他们的预测受到RNNs众所周知的梯度消失问题的影响,因此尤其依赖于最接近的帧。在我们的初步实验中,很难在生成的未来帧中保持移动物体的形状,特别是在它们重叠后。在本文中,我们提出了一个新的梯度捷径循环单元来解决这个问题,它吸收了之前的视频帧的知识,有效地利用了长期信息。

3. Revisiting Deep-in-Time Architectures

在这里插入图片描述

图1. (a)Stacked ConvLSTMs、(b)Deep Transition ConvLSTMs和(c) 带有时空LSTM (ST-LSTM)的PredRNN数据流的比较。PredRNN的两个记忆同时起作用：子图 (c)中的红线表示空间记忆的深度过渡路径，水平的黑色箭头表示时间记忆的更新方向。

增加神经网络深度的一般方法是叠加多个隐层。一个典型的视频预测叠加循环网络(Shi et al.， 2015)如图1(a)所示。循环单元ConvLSTM的设计目的是通过门控结构适当地保留和忘记过去的信息，然后将其与当前的空间表示形式融合。然而，stacked ConvLSTMs并没有为逐步重复的状态过渡增加额外的模型表达能力。
在我们的初步观察中，增加ConvLSTMs的每一步过渡深度可以显著提高其对短期动态的建模能力。如图1(b)所示，隐藏状态H和记忆状态C以之字形方向更新。水平相邻状态之间的扩展循环深度使网络能够在较短的时间间隔内学习相邻帧的复杂非线性过渡函数。然而，它引入了消失梯度问题，使得从视频中获取长期相关性变得困难。虽然循环捷径是一种简化的细胞结构(Zilly et al.， 2017)，可能会在一定程度上缓解这一问题，但它牺牲了时空建模能力，正如前面所描述的困境。
PredRNN (Wang et al.， 2017)作为一个基于深度过渡结构的性能良好的预测学习方法，在堆叠时空LSTM (ST-LSTM)中增加相邻时间步长间的连接，追求长期的一致性和短期的循环深度。图1( c )说明了它的信息流。PredRNN利用了一种双重记忆机制，通过简单的门控级联，将水平更新的时间记忆C与垂直转换的空间记忆M结合起来。尽管提供的有利的信息流动时空的记忆,这个平行记忆结构,后跟一个连接操作符,和卷积1×1层固定数量的渠道,不是一个有效提高循环深度的机制。此外，作为叠加循环网络和深度过渡网络的直接组合，PredRNN仍然面临与以往模型相同的消失梯度问题。

4. PredRNN++

在本节中，我们将对改进的预测循环神经网络（PredRNN ++）进行详细说明。与上述深度实时循环体系结构相比，我们的方法有两个关键见解：首先，为了增加从一个时间步长到另一个步长的循环深度，我们提出了一种新的时空存储机制，即Causal LSTM，通过这种方式，将获得更强大的建模能力，以实现更强的空间相关性和短期动态。其次，为了长期的视频建模，它试图解决梯度反向传播问题。它构建了一条替代性的梯度捷径，这是一条从未来输出回到远距离输入的更短路径。

4.1. Causal LSTM

在这里插入图片描述

图2. Causal LSTM，即时间和空间记忆通过门控结构以级联方式连接。彩色部分是新设计的操作,同心圆表示拼接,σ是按元素操作的sigmoid函数。

Causal LSTM的灵感来自于这样一个想法:在循环过渡中增加更多的非线性层，增加从一种状态到下一种状态的网络深度。这个新的循环单元的简图如图2所示。Causal LSTM单元包含双重记忆，即时间记忆

C^k_t

和空间记忆

M^k_t

，其中下标t表示时间步长，上标表示堆叠Causal LSTM网络中的第k个隐层。当前的时间记忆直接依赖于其先前的状态

C^k_{t−1}

，并通过遗忘门

f_t

、输入门

i_t

和输入调制门

g_t

控制。当前的空间记忆

M^k_t

依赖于深度过渡路径中的

M^{k-1}_t

。对于底层(k = 1)，我们将(t−1)处的最上层空间记忆分配给

M^{k−1}_t

。Causal LSTM与原来的时空LSTM有明显的不同(Wang et al.，2017)，Causal LSTM采用了级联机制，其中空间记忆是经过另一组门控结构的时间记忆的函数。第k层Causal LSTM的更新方程为:
position = center

其中

*

是卷积。

\odot

是按元素乘法,σ是按元素sigmoid函数，方括号表示张量拼接，圆括号表示方程组。

W_{1∼5}

是卷积滤波器，其中

W_3

和

W_5

是1×1的卷积滤波器，用来改变滤波器的数量。最终输出

H^k_t

由双记忆状态

M_t^k

和

C_t^k

共同决定。
由于时空过渡路径上的循环深度显著增加，这种新设计的级联记忆优于时空LSTM的简单级联结构(Wang et al.， 2017)。最终生成的帧中的每个像素在每一步都有更大的输入量感受野，使得预测模型对短期视频动态和突发变化具有更强的建模能力。
我们还考虑了另一个时空Causal LSTM变体。我们交换两个记忆的位置，首先更新

M_t^k

，然后在

M_t^k

的基础上计算

C_t^k

。第5节将对这两种可选结构进行实验比较，我们将证明这两种结构都比原来的时空LSTM具有更好的视频预测结果。

4.2. Gradient Highway

除了短期的视频动态，Causal LSTM往往遭受梯度反向传播的长期困难。特别是时间记忆 $C_t^k$ 可能会因为较长的过渡而忘记过时的帧外观。这种反复出现的架构仍然是不稳定的，特别是对于具有周期性运动或频繁遮挡的视频。我们需要一条信息捷径来学习跳帧关系。
在这里插入图片描述

图3. 最终的架构(上)与梯度公路单位(下),同心圆表示连接的地方,σ是按元素sigmoid函数。蓝色部分表示将当前时间步长与之前输入直接连接的梯度公路，而红色部分表示深度过渡路径。理论证据表明，捷径层(Srivas- tava et al.， 2015b)能够在非常深的前馈网络中有效地传递梯度。我们将这一思想应用到循环网络中，以防止长期梯度快速消失，并提出了一种新的时空重现结构——梯度捷径单元(GHU)，其原理图如图3所示。GHU的方程可以表示为:

在这里插入图片描述
其中W••表示卷积滤波器。 $S_t$ 被命名为开关门，因为它能够在转换后的输入 $P_t$ 和隐藏状态 $Z_t$ 之间进行自适应学习。等式2可简单表示为 $Z_t = GHU (X_t, Z_{t−1})$ 。
为了追求更强的时空建模能力，我们使用Causal LSTMs建立了一个更深入的时间网络，并尝试用该方法来处理消失梯度问题。最终的架构如图3所示。具体来说，我们堆叠L个Causal LSTMs，并在第一个和第二个Causal LSTMs之间注入一个GHU。整个模型的关键方程为(3≤k≤L)

在这里插入图片描述
在这个架构中，梯度高速公路与随机LSTM无缝结合，分别捕获长期和短期的视频依赖关系。快速更新的隐状态 $Z_t$ 型、梯度公路展示了另一种快速从第一个到最后一个时间步(图3中的蓝线)。但不同于时间跳跃连接,它通过开关门 $S_t$ 控制 $Z_t$ 和深度过渡特征 $H_t^1$ 的比例,使自适应学习的长期和短期的帧的关联成为可能。
我们还通过将GHU注入不同的隐含层来探索其他架构变体，例如，在第（L-1）层和第L层Causal LSTMs之间。实验比较将在第5节中给出。上面讨论的网络性能优于其他网络，这表明了原始输入特征的建模要比更高层的抽象的表达更加重要。
在网络细节方面，我们观察到隐藏状态信道的数量，特别是底层的隐藏状态信道的数量，对最终的预测性能有很大的影响。因此，我们提出了一个5层架构，以追求高预测质量和合理的训练时间和记忆使用，包括4个Causal LSTM，分别具有128、64、64、64通道，以及一个位于底层Causal LSTM上方的128通道梯度捷径单元。我们还把所有循环单元内部的卷积核大小设置为5。

5. Experiments

为了测量我们的方法的性能，我们使用了两个视频预测数据集:一个移动数字的合成数据集和一个真实的视频数据集。有关更多数据集的代码和结果，请参考https://github.com/yunbo426/predrnn.pp。
我们使用TensorFlow (Abadi et al.， 2016)对所有的比较模型进行训练，并使用ADAM (Kingma & Ba, 2015)对其进行优化，使其达到初始学习速率为 $10^{−3}$ 。此外，我们将计划抽样策略(Bengio et al.，2015)应用于所有模型，以缩减训练和推断之间的差异。在目标函数方面，我们使用L1 + L2损失函数来同时增强生成帧的锐度和平滑度。

5.1. Moving MNIST Dataset

Implementation 我们首先按照移动MNIST数据集上的典型设置，根据之前的10个帧来预测10个未来帧。然后，我们将预测时间范围从10个时间步长扩展到30个时间步长，以探索比较模型在进行长期预测方面的能力。每一帧包含2个手写数字，在64×64的图像网格中跳跃。为确保训练后的模型从未见过预测阶段出现的数字样本,我们从原始MINIST数据集的不同部分采样以构建训练集和测试集。数据量是固定的,训练集为10,000个序列，验证集为3,000个序列和为测试集5,000个序列。为了测量泛化和转移能力,我们的模型使用两个移动的数字来训练的，对该模型在另外3个数字的测试集上进行评估。
Results 为了评估模型的性能，我们测量了每帧结构相似度指标(SSIM) (Wang et al.， 2004)和均方误差(MSE)。SSIM在-1和1之间，得分越大，表示生成的图像与地面真实图像的相似性越大。表1使用这些指标比较了最先进的一些模型。特别地，我们引入VPN模型的基线版本(Kalchbrenner et al.， 2017)，它每个帧都是一次同时生成。我们的模型在预测接下来的10帧时比其他模型表现得更好。为了接近高质量预测的时间限制，我们将预测的时间范围从10帧扩展到30帧。尽管我们的模型在这种情况下仍然表现最好，但由于未来固有的不确定性，它开始生成越来越模糊的图像。接下来，我们只讨论10帧的实验设置。
在这里插入图片描述

图4。在移动MNIST-2测试集的输入或输出帧中分别使用纠缠数字的两个预测示例。

在这里插入图片描述

图5。测试集上的帧上MSE。较低的曲线表示较高的预测质量。所有模型都在MNIST-2上训练。图5展示了框架结构的MSE结果，较低的曲线表示较高的预测精度。对于所有的模型，生成的图像质量都会随着时间下降。该模型具有较小的退化率，能够克服长期的信息损失，并能与梯度公路学习跳帧视频关系。在图4中，我们展示了预测帧的示例。有了Causal 记忆，我们的模型就能对数字轨迹做出最准确的预测。我们还观察到，在未来预测中最具挑战性的任务是在遮挡发生后保持数字形状。这个场景需要我们的模型从以前遥远的环境中学习。例如，在图4中的第一种情况中，两个数字在目标未来序列的开头纠缠在一起。大多数先前的模型不能保持数字“8”的正确形状，因为它们的结果主要取决于附近时间步长的高水平表示，而不是之前的输入(请参阅我们的事后梯度分析)。类似的情况发生在第二个例子中，所有被比较的模型在预测帧中都呈现出不同但不正确的数字“2”形状，而PredRNN++保持其外观。正是梯度捷径结构使我们的方法能够学习更多的解缠表示，并预测运动物体的正确形状和轨迹。

Ablation Study 如表1所示，使用Causal LSTMs代替ST-LSTMs是有益的，将PredRNN的SSIM评分从0.867提高到0.882。证明了级联结构在连接时空记忆方面优于简单的级联。作为对照实验，我们交换了时空记忆在Causal LSTMs中的位置。这种结构(时空变异)优于原始ST-LSTMs, SSIM从0.867增加到0.875，但其准确性低于标准Causal LSTMs。

表1。PredRNN++的结果与其他模型进行了比较。我们报告每帧生成序列的SSIM和MSE。较高的SSIM或较低的MSE表示较高的预测质量。(*)表示由我们或其他人复制的非开源模型。

在这里插入图片描述
表1还表明，梯度捷径单元(GHU)与ST-LSTM和Causal LSTM都有很好的配合。它能持续地提高深过渡循环模型的性能。在表2中，我们讨论了将GHU注入Causal LSTM之间不同位置的多个网络变体。结果表明，将这个单元设置在最底层的Causal LSTM之上，效果最好。通过这种方式，GHU可以选择三种信息流的重要性：捷径上的长期特征、深度过渡路径中的短期特征以及从当前输入帧中提取的空间特征。

表2。消融研究:将GHU注入4层Causal LSTM网络中。GHU的位置由与之相连的Causal LSTMs的索引(k1, k2)确定。

在这里插入图片描述

图6。损失函数在最后时间步的梯度范数, $L_{20}$ ,对编码器中间活动,包括隐状态、时间记忆状态和空间记忆状态: $_{H_t^k}L_{20}||$ ， $_{C_t^k}L_{20}||$ 和 $_{M_t}L_{20}||$

在这里插入图片描述

图7。梯度分析:(a)损失函数在最后一个时间步对每个输入帧的梯度，在测试集上取其平均值。(b)在测试集上的5000个序列中，数字纠缠在不同输入帧中发生的频率。

Gradient Analysis 我们观察到移动的数字经常以类似于现实场景中的遮挡的方式，被纠缠在一起。如果数字被纠缠在一起，那么在未来的预测中很难将它们分开，同时保持它们原来的形状。这可能是由于消失的梯度问题，它阻止了深层网络捕捉长期帧关联。我们在图7(a)中评估这些模型的梯度。 $x_tL_{20}||$ 是最后的时间步损失函数对关于每个输入帧的梯度范数。不同于其他模型梯度曲线会在时间上急剧衰减，这意味着一个严重的消失梯度问题，我们的模型有一个独特的碗状曲线，这表明它设法缓解了消失的梯度。我们还观察到，这个碗状曲线与图7(b)所示的随时间变化的遮挡频率是一致的，这表明所提议的模型能够捕捉到长期的依赖关系。
图6分析了我们的方法是通过什么方式缓解了梯度消失的问题，图示显示了损失函数在最后时间步长对中间隐藏状态和记忆状态的导数的绝对值: $_{H_t^k}L_{20}||$ ， $_{C_t^k}L_{20}||$ 和 $_{M_t}L_{20}||$ 。消失梯度问题导致梯度从顶层下降到底层。为了简单起见，我们分析了由两层组成的循环模型。在图6(a)中， $H_t^1$ 的梯度在时间上迅速消失，表明之前的真实帧对最后一帧预测的影响可以忽略不计。通过时间记忆连接 $C_t^1$ ，图6(b)中的PredRNN模型提供了从先前的底部状态到顶部的较短路径。随着 $H_t^1$ 曲线的出现，它强调了更多相关隐藏状态的表示。在图6中(c )、梯度捷径状态 $Z_t$ 型导数最大而 $_{H_t^2}L_{20}||$ 在时间上急剧衰减，表明梯度捷径储存了长期的依赖，并允许Causal LSTM集中于短期的帧的关联。通过这种方式，PredRNN++将不同时间尺度的视频表示与不同的网络组件分离，从而实现更准确的预测。

5.2. KTH Action Dataset

KTH动作数据集(Schuldt等人，2004年)在不同的场景（室内和室外，尺度变化或不同的衣服）中，包含6种人类行为(步行、慢跑、跑步、拳击、挥手和拍手)。每个视频剪辑平均长度为4秒，用静止摄像机拍摄，帧速率为25 fps。
在这里插入图片描述

图8。不同模型在KTH测试集上的帧间PSNR和SSIM比较。曲线越高，结果越好。

在这里插入图片描述

图9。KTH预测示例。我们通过观察10帧来预测未来的20帧。图示中显示的每帧间隔为三帧。值得注意的是，这两个序列也出现在(Villegas et al.， 2017a)。

Impltmentation 从（villegas等人，2017a）开始实施实验设置：视频片段分为108,717个序列的训练集和4,086个序列的测试集。然后，我们将每个帧的大小调整为128×128像素的分辨率。我们通过给所有比较模型提供10帧并使它们生成随后的10帧来训练它们。Mini-batch大小设置为8，200,000次迭代后终止训练过程。在测试时，我们将预测范围扩展到20个未来的时间步。
Results 虽然由于单调的动作和朴素的背景，很少有遮挡存在，但对于以往的方法来说，准确预测较长的视频序列仍然是困难的，这可能是由于消失梯度问题造成的。解决这个问题的关键是捕捉长期的帧之间的关联。在这个数据集中，它意味着学习长期反复执行的人体运动，例如当参与者行走时摆动的手臂和腿(图9)。

表3。在第k个人体动作测试集中对不同方法的定量评估。这些指标在20个预先设定的框架中取平均值。分数越高，预测质量越好。

在这里插入图片描述
我们使用量化指标PSNR(峰值信噪比)和Ssim来评价预测的视频帧。PSNR强调前景外观，较高的评分表明两幅图像之间有更大的相似性。经验表明，这两种度量在某些方面是互补的：PSNR更关注像素级的正确性，而ssim对图像清晰度的差异也很敏感。一般来说，在评估一个预测模型时，这两个因素都需要考虑到。表3评估了总体预测质量。对于每个序列，度量值在所生成的20个帧上进行平均。图8提供了一个更具体的帧间比较。在PSNR和Ssim上，我们的方法在未来的每一步中都表现出了比最先进的水平更好的性能。这些结果与图9中的定量例子相一致。图9表明，我们的模型对人体运动轨迹进行了相对准确的预测，并生成了较少模糊的视频帧。

我们还注意到，在图8中，对于输出序列中的前10个时间步，所有的度量曲线都退化得很快。但是我们的模型的度量曲线从第10步到第20步下降得最慢，这表明它在捕获长期视频依赖关系方面的强大能力。这是我们的方法的一个重要特点，因为它大大降低了未来预测的不确定性。**对于一个时间较深但没有梯度捷径的模型来说，它将无法记住重复的人类动作，从而导致对未来移动轨迹的错误推断。**一般来说，这种“健忘症”效应会导致未来的各种可能性，最终使生成的图像变得模糊。我们的模型可以使未来的预测更具确定性。

6. Conclusions

本文提出了一种预测循环网络PredRNN++，解决了深时间结构和消失梯度之间的时空预测学习难题。为了增强其对短期动态的建模能力，我们设计了级联双记忆结构的Causal LSTM。为了缓解消失梯度问题，我们提出了梯度捷径单元，该单元为梯度提供了从未来预测到长间隔过去输入的快速路线。通过对具有频繁物体遮挡的合成移动数字数据集和具有周期性人类动作的真实视频数据集的PredRNN++进行评估，我们证明了该方法能够自适应地学习长期和短期依赖关系，并获得最新的预测结果。

7.Acknowledgements

本工作获得国家重点科研项目(2017YFC1502003)、国家自然科学基金61772299、61672313、71690231资助，国家自然科学基金IIS-1526499、IIS-1763325、CNS-1626432资助。

References

Duncan_yitong

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫