读论文:MoDeRNN: 追求细粒度运动细节的时空预测学习

标题: MODERNN: TOW ARDS FINE-GRAINED MOTION DETAILS FOR SPATIOTEMPORAL PREDICTIVE LEARNING
作者: Zenghao Chai, Zhengzhuo Xu, Chun Yuan
原文地址:https://arxiv.org/pdf/2110.12978.pdf


Abstract

时空预测学习(ST-PL)旨在通过有限的观察序列预测后续帧,它在现实世界中有广泛的应用。但这也是一项具有挑战性的任务:学习有代表性的时空特征进行预测并非一件易事;连续帧之间的混乱不确定性也使得问题变得困难。本文通过加强以前的背景和当前状态之间的对应关系解决上述问题。研发人员设计了Detail Context Block(DCB)来提取细节,并改善上层状态与当前状态之间的独立关联性。并将其与ConvLSTM继承,再引入到运动细节RNN(MoDeRNN)以达到最优表现。从几个经典数据集上的表现结果可得:该模型是最优的,且其计算负荷较低。

Index Terms——Spatiotemporal prediction, Recurrent neural network, MoDeRNN, fine-grained details


Introduction

空间-时间预测学习(ST-PL)在预测性学习中具有广泛的应用,其目的是根据有限的观察帧来预测未来的序列。但是它的困难在于混乱的运动趋势和深刻的动态变化——在当前的输入帧和以前的观测之间建立适当的对应关系,并整合运动趋势以进行后续预测是必要的和关键的。

虽然近年来ST-PL取得了令人瞩目的进展。但是在重新考虑ConvLSTM时,可以很直观的看到:在RNN层的过程中,输入状态和上层上下文状态呈现出孤立的对应关系。而这会导致模型出现两个严重的不足:

  1. 模型的深度和复杂度的增加加剧了当前输入和上层语境之间相关性的下降使得当前帧和上层语境之间甚至难以建立正确的对应关系
  2. CNN很难捕捉到包含丰富细节的细粒度特征进行预测(限制了考虑潜伏状态的细节特征的能力)。

在此基础之上,又因为当前帧的状态与特定区域的邻居高度相关,即一个区域的下一个时间戳帧与它本身及其邻居的主体运动都有关系。所以细致的局部信息对长期预测也有着十分重要的作用——本文提出了MoDeRNN来解决上述问题。

细节上下文块DCB:对输入和语境状态进行加权,以突出时空细节,用于后续预测。

DCB利用各种感知场CNN层来捕捉与输入状态和上下文状态相对应的区域,并以丰富的关联性反复更新相应的上下文状态和输入状态——如以此来,MoDeRNN就可以捕捉到RNN层之间的细粒度的局部持续相关性,并以此来提升预测性能。


贡献

  1. 构建了Detail Context Block来捕捉细粒度的局部细节,并通过密集的关联关系来更新上下文状态;
  2. 提出了使用上下文状态的MoDeRNN并验证了其获取上下文和输入相关性的能力。然后在两个有代表性的数据集上以较少的参数实现了显著的性能提升。

综述

一、方法

1.1 模型结构

如下图所示,ST-PL常用基于RNN的模型,它具有常见的编码器-RNN-解码器结构。

给定的帧由二维CNN编码器 ε \varepsilon ε以逐步模式进行编码,然后获得的特征[ˆF1:T]作为N层LSTM的输入,表示为M,生成给定序列的高阶时空特征和输出状态[ˆFT +1:T +K]。最终,输出状态由二维CNN解码器D迭代解码,从而生成下一个K帧[ˆXT +1:T +K]。

数学公式如下所示:

本文保持编码器 ε \varepsilon ε和解码器D与前面提到的工作一致,即都是1×1核的CNN层

  • 关键的目标:在RNN上做出有代表性的高阶时空特征,同时还有一些值得考虑的问题;

1.2 提出的DCB

传统的RNN以及ConvLSTM对于当前输入状态和上下文状态的利用都不太完全,这样就容易导致预测结果中的信息损失。直观地说,输出帧的预测质量会越来越差,特别是在细节部分。

因此,本文提出了DCB模块,用以提取当前输入状态Xt和上下文状态Ht-1细粒度局部特征,并利用上下文交互方法来提高上层上下文状态和当前输入状态之间的相关性:

具体而言,通过利用不同感知领域的CNN层来提取细粒度的局部特征,并且分别全面关注上下文输入状态的详细运动区域,并使用迭代权重关联操作来提高两个状态之间的孤立关联性。DCB有以下步骤组成:

  • 步骤一:为了获取当前输入状态Xt中对预测来说重要的特定区域(通过Hadamard乘积实现,就是两个相同大小的矩阵相乘),本文综合考虑了局部的硬需,并通过CNN层生成的上层语境的注意力权重图AttnH来捕捉语境特征,进而获得平均局部特征,用以表明接下来时间戳中的潜在运动趋势;

(采用Sigmoid函数σ将权重图归一化为(0,1),并通过Hadamard乘积对输入特征Xt进行重权,以突出输入状态的重要部分。最后,我们将权重图乘以一个恒定的比例因子s,以避免越来越小);

  • 步骤二:本文通过强制Ht-1启发细粒度的运动细节,同时削弱表达较低的可忽略部分。通过与输入相关的注意权重图AttnX相乘来更新Ht−1,以提取运动浓度,并通过Hadamard积进行预测。

权重图的计算方法与步骤1相同,即利用多核尺度CNN层和具有比例因子s的激活函数σ获取详细的上下文运动特征,得到更新后的具有丰富时空特征的上下文状态Ht−1和输入状态Xt。


1.3 MoDeRNN概述

为了提高在细节区域的表达能力,本文将DCB与ConvLSTM集成,从而组成了下图所示的面向细粒度细节的新的时空预测模型MoDeRNN

从形式上看,MoDeRNN可以表示为:

  • 首先,利用DCB来捕捉细粒度的细节时空特征,饼更新当前输入状态Xt和上层预警状态Ht-1。然后,为了进一步提高状态间的相关性,使用了m堆叠的DCB,以提高MoDeRNN的表达能力和更多的细节。

其中Wi×ih和Wi×ix分别代表Ht-1和ˆXt的i×i核CNN层。s代表比例因子,σ表示Sigmoid激活函数

  • 其次,通过利用更新的ˆXt和ˆHt-1来获得详细的输出状态Ht和存储状态Ct。在MoDeRNN的最后一层,最终输出状态Ht被解码以生成下一个时间戳的最终输出帧。

这些个W*都是CNN层,用于门操作


二、实验

本文使用了移动数字和台风数据集来进行测试。

2.1移动数字

使用PSNR、SSIM、MSE和MAE进行定量比较。结果如下表所示:

结果证明了我们的方法在移动MNIST数据集上在上述所有指标上的优越性,与SA-ConvLSTM相比,不仅各项指标在都有所提升,同时获得更低的计算负荷。

上图显示,MoDeRNN很好地保留了数字的变化细节,特别是处理了重叠的轨迹,并保持了时间的清晰度。相比之下,其他方法面临着严重的模糊挑战,无法处理重叠的数字。

下图则是显示了连续时间戳的权重图:

MoDeRNN专注于细粒度的局部细节,用于后续预测,甚至可以处理重叠情况。


2.2 关于台风的比较

将具有代表性的模型运用到台风数据集上,使用的评价指标和之前一样:

上面的图和表表明,所提出的方法在数量和质量上都优于现有技术。

MoDeRNN是唯一一个在超过时间戳的细节纹理中表现良好的模型,它能够保留和预测气象信息的潜在趋势。


总结

本文介绍了一种用于ST-PL的新型MoDeRNN,其重点是解决具有挑战性的运动趋势的详细预测问题。改模性通过捕获细粒度的时空潜伏特征,以提高长期预测的预测质量。
具体而言,本文提出了DCB来使潜伏状态与细粒度的运动细节有良好的互动,并确保预测结果保持一致的清晰度。


收获

通过这篇文章,我收获到了新的提升ST-PL性能的方向,并且发现有些模块可以通过卷积叠加来提升性能。那么这是否意味着以后我也可以运用类似的方法来进行设计模型?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值