标题: PredRNN:使用时空LSTMs进行预测学习的递归神经网络
作者: Yunbo Wang∗, Jianjin Zhang∗, Hongyu Zhu, Mingsheng Long (B), Jianmin Wang, and Philip S. Y
文章目录
Abstract
本文通过提出一种预测递归神经网络(PredRNN)对空间表象和时间变化两种结构进行建模。该网络的核心是一个新的时空LSTM (ST-LSTM)单元,它同时提取和记忆空间和时间表示。PredRNN在几个数据集上都表现出最优的预测性能,并且是一个更通用的框架,可以通过与其他架构集成轻松扩展到其他预测学习任务。
Index Term——Spatial appearances, Temporal variations, RNN, ST-LSTM
Introduction
在时空预测学习中,有两个关键的方面:空间相关性和时间动态性。预测系统的性能取决于它是否能够记忆相关结构。但是传统的RNN与LSTM有以下不足:
- 基于RNN结构的缺点在于丢失了空间上的信息;
- 基于CNN的网络,一次预测一帧,更关注于图像外观,捕获长期运动方面比较弱;
而本文探索了一种用于预测学习的新的RNN框架,并提出了一种用于同时记忆时空信息的新型LSTM单元。
前言
时空预测学习
介绍一下时空预测,时空预测经典公式:
假设我们正在监测一个由P个测量值组成的动态系统(如视频片段),随着时间的推移,每个测量值(如RGB通道)都被记录在一个由M×N网格(如视频帧)代表的空间区域的所有位置。从空间上看,在任何时候对这些P测量的观察都可以用张量X∈RP×M×N来表示。从时间上看,T个时间步长的观测值形成了一串张量X1, X2, … , XT。时空预测学习的问题是预测未来最可能的长度-K序列,给定以前的长度-J序列,包括当前的观察。
ConvLSTM
这里主要介绍其不足:
假设对于4层的ConvLSTM编解码网络,输入帧会输入到第一层,未来的输出帧是在第四层,在传递的过程中,空间结构被一层一层的解码,同时隐藏状态自下而上的传递。但是,记忆单元在这四层结构中是相互独立的,只在同层的时域之间传递,那么,底层就会完全忽略顶层在上个时间步中记住的内容。克服这种层独立记忆机制的缺点对于视频预测非常重要。
贡献
- 提出了一种同时考虑了空间相关性和时间动态性的PredRNN;
- 通过ST-LSTM来保持原始输入序列的详细信息;
综述
PredRNN
- 想法:一个预测性学习系统应该在一个统一的记忆池中记忆空间表象和时间变化;
结合上述想法推导出了能在水平和竖直方向上传递存储状态的ST-LSTM来构建PredRNN。
时空记忆流
新老LSTM的比较:
堆叠的ConvLSTM逐层提取高度抽象的特征,然后通过将其映射到像素值空间来进行预测。
传统的ConvLSTM:如右图所示,单元状态被限制在每个ConvLSTM层内,只在水平方向上更新。信息只通过隐藏状态向上传递——>在预测性学习中,应该保持原始输入序列的详细信息;
改进的ConvLSTM:橙色的箭头表示LSTM记忆单元的前馈方向。在左图中,所有LSTM共享一个统一的存储器,该存储器沿之字形方向更新。原始输入序列的详细信息应该保持不变,但是这样会出现梯度消失,因为记忆需要在遥远的状态之间流动一个较长的路径;
具有时空记忆流的卷积LSTM单元的关键方程显示如下所示:
输入门、输入调制门、遗忘门和输出门现在依赖于隐藏状态Hl-1t和单元状态Ml-1t,这些状态在当前时间步骤中由前一层更新。具体而言,底层的LSTM单元从上一层的时间步骤中接收状态值。
时空(ST)LSTM
用下图所示的PredRNN模型可以实现标准的时间记忆和拟议的时空记忆的同时流动:
ST-LSTM(左)和PredRNN(右)。ST-LSTM单元中的橙色圆圈表示与传统ConvLSTM相比的差异。PredRNN中的橙色箭头表示时空记忆流,即左边的时空记忆Mlt的过渡路径。
其表达式如下所示:
Clt是标准的时间单元,在每个LSTM单元内从t - 1的前一个节点传递到当前时间步长。Mlt是我们在本节中描述的时空记忆,它在同一时间步长中从l - 1层垂直传递到当前节点。
对于l=1的底部ST-LSTM层,Ml-1t=MLt-1。与简单的记忆串联不同,ST-LSTM单元对两种记忆类型都使用了共享输出门,实现了记忆的无缝融合,可以有效地模拟时空序列中的形状变形和运动轨迹
实验
在三个经典的数据集上进行了测试,并且都得到了最优的表现。PredRNN模型是用L1+L2损失进行优化的,所有的模型都使用ADAM优化器进行训练。
移动数字集
在该数据集上的结果如下所示:
图4给出了预测的视频序列的定性比较:
尽管VPN生成的帧看起来更清晰一些,但它的预测逐渐偏离了正确的轨迹,如第一个例子所示。此外,对于那些数字重叠和纠缠的序列,VPN很难将这些数字清楚地分开,同时保持它们各自的形状。例如,在右图中,数字 "8 "失去了左边的像素,重叠后被预测为 “3”。其他基线模型受到更严重的模糊效应的影响,特别是对于更长的未来时间步长。相比之下,PredRNN的结果不仅足够清晰,而且对于长期的运动预测也更加准确。
雷达数据集
预测未来雷达回波的形状和运动是预测学习的一个实际应用。这是一项更具挑战性的任务,因为雷达回波不是刚性的。此外,它们的速度不像移动数字那样固定,它们的形状可能会由于复杂的大气环境而迅速积累、消散或变化。空间变形建模对该数据的预测具有重要意义。
- 实现:数据集包括在中国广州每6分钟记录的10,000个连续雷达观测数据;
- 预处理:首先将雷达强度映射到像素值,并将其表示为100 × 100灰度图像。然后我们用20帧宽的滑动窗口对连续图像进行切片。因此,每个序列由20个帧组成,10个用于输入,10个用于预测。总共9600个序列被分为7800个样本的训练集和1800个样本的测试集;
- 结果:实验结果如下图所示:
从表2可以看出,PredRNN的预测误差明显低于VPN基线。虽然VPN在不久的将来会产生更精确的雷达图,但从长期来看,它会迅速衰退。这种现象是由于缺乏强大的LSTM层来模拟时空变化。此外,PredRNN作为VPN基线只占用1/5的内存空间和训练时间
总结
本文提出了一种新的端到端循环网络PredRNN,用于时空预测学习,同时模拟空间变形和时间变化。内存状态在堆叠的LSTM层中呈锯齿状垂直变化,在所有时间状态中呈水平变化。此外,本文还引入了一种新的时空LSTM (ST-LSTM)单元,该单元具有门控双存储器结构,作为PredRNN的关键构建块。我们的模型在三个视频预测数据集上实现了最先进的性能,包括合成视频序列和自然视频序列。
未来展望
PredRNN虽然综合考虑了空间相关性和时间动态性。但是由于自然时空过程在许多方面具有高度非平稳性,PredRNN并不能很好的解决这一问题。所以后来研发团队就针对一这方面来做相应的研究。