论文笔记-<Spatiotemporal Feature Residual Propagation for Action Prediction>

论文笔记:‘Spatiotemporal Feature Residual Propagation for Action Prediction’ ICCV 2019

Author: He Zhao, Richard P. Wildes. York University, Toronto
Code: Github

Abstract

之前的工作没有明确建模细粒度的运动演化关系,来作为有用信息。本篇工作研究了动作模式如何在空间特征域中随时间演变。本工作的3个关键组件:①中间层ConvNet特征,从原始数据而来,保留了空间结构;②不是传播每帧的特征,而是它们的残差,这样既减少了冗余表征,又保留了随时间演变的关键信息;③使用Kalman滤波来减缓误差累积问题,(统一预测开始时间?没明白这里)。在JHMDB21, UCF101, BIT数据集上进行了验证。

1. Introduction

Action prediction和action recognition面临许多相同的挑战,例如,视角的变化,动作的演化和背景信息纠缠在一起,噪声、相机运动、遮挡和相机模糊等等。而且对于action prediction还有额外的挑战,例如某些不同的动作种类可能在某些子片段类似(例如,推和拍都是从抬起手臂开始),这使得只有部分信息时识别更加困难。而且,由于缺乏时间上下文信息,也导致数据的判别性不足以进行分类。
图1在这里插入图片描述
图1:整体框架。中间层ConvNet特征来自于原始输入帧序列。图中即来自于[X(t), X(t+1), X(t+2)],子序列[X(t+3), …, X(t+7)]在test中未被观察到,在训练中被观察到。初始的残差特征CNN Residuals,通过相邻特征图上逐像素的时间差分得到。然后一个生成未来的模块,Resifual Generator Network (RGN)递归地生成未来residuals(P-Residuals)。通过将residuals添加到初始特征图上来恢复预测特征P-Features。Kalman滤波器来最小化跨时间的误差累积。卡尔曼滤波器在训练期间对整个视频序列进行操作,但在测试期间仅对最初观察到的部分序列进行操作。 最终动作分类(图中未显示)是参考最初观察到的和预测的特征进行的。

传统上,动作预测问题是通过在完整视频信息和部分观察之间进行转换来制定的。这些方法往往忽略了视频中包含的丰富的运动模式,这已被证明在动作识别中发挥着举足轻重的作用。深度学习为其提供了可能。例如,可以设计一个时间自适应目标函数,鼓励模型尽早生成正确的标签。或者,可以采用循环神经网络以递归方式推断以先前观察条件的下一个特征。然而,这种方法依赖于全连接层的激活这一事实可能会影响性能,因为矢量化特征格式会折叠局部信息并包含更多的噪声。

针对上述挑战,我们专注于探索空间特征随时间的细微变化,并提出了一个特征残差生成器网络(RGN)以传播到未来。我们选择预训练深度网络的中间层激活进行传播,因为这些层的特征含有丰富的空间特征。不传播特征本身,而是传播特征间的残差,因为残差有更紧凑的表征,而且可以捕获特征随时间的变化。随着时间推移,为了改善误差累计问题,使用了Kalman滤波器。

2. Related work

早期基于视频的动作预测主要依赖于手工特征,来构建时间正则化判别模型。

近期工作集中于深度学习。action tubes; ConvNet with an LSTM; learned mappings between semantic features of full and partial videos; high-level semantic features; sequential features.

Benefits of explicitly exploiting intermediate layer features.

Residual information can play an important role in procesing of redundant data.

3. Technical approach

3.1 Overview
给定一段视频X[1:k],来预测动作类别,k代表视频的第k帧,总共K帧。支持我们的目标的关键因素是将初始观察到的连续帧 X[1:k] 中包含的信息传播到未观察到的 X[k+1:K]。预测的类别y由整个序列X[1:K]=Cat{X[1:k], X[k+1:K]}。观察率如之前工作的定义。

我们并不直接预测未来帧,而是预测用于训练动作识别的ConvNet的中间层特征。我们对中间层特征特别感兴趣,因为这些层的特征从原始数据中获得了一定程度的抽象,专注于与动作相关的部分,同时保留空间布局以捕获动作部分和场景上下文之间的关系。

我们将预测过程分为两部分:特征残差传播和特征重构。特征残差可以保留物体和运动的变化信息,减少非变化部分带来的冗余。我们扩展了残差提取和处理在 ConvNet 特征域中的应用,以产生一种新的动作预测框架。

我们使用TSN特征和分类器。

3.2 Feature residuals
给定一段视频帧X[1:k],用d(t)∈R(C,W,H)来表示 t 帧的中间特征。C是特征通道数,W×H是特征图尺寸。t 时刻的时间特征残差通过沿每个通道的逐像素做差来计算:在这里插入图片描述
|c 代表在通道c上。

从特征{d[1:k]}和它们的残差{r[2:k]},来重建未来表征{d[k+1:K]}。具体来说分两步。首先,通过Residual Genarator Network (RGN) 递归生成残差{r[k+1:K]}。然后,将残差加到已经观察到的特征中:式(2)在这里插入图片描述
在图1中,用P-Residuals和P-Features表示预测的残差和特征。

3.3 Residual generator network (RGN)

在这里插入图片描述
图2. 用来生成未来残差P-Residuals的RGN结构。为了生成一个未来残差,我们采用时间窗口长度为m=3,使用 ConvNet G 递归生成运动内核 Kn,并以卷积方式对最近的残差进行变换。新生成的残差加入到后面未来残差的预测。下标n为核大小。

组件的核心是kernel motion transformation G. 给定一系列观察率,G生成卷积核集合{K(n)},与最近的残差输入进行卷积预测下一个结果。kernel motion transformation在之前的工作中已被证明在未来帧的预测中效果很好,通过不同的卷积核大小n×n,来捕获多个运动尺度,且拥有较低的复杂度。

我们为每个通道c生成具有n×n多尺度的motion kernels:
在这里插入图片描述
G是有可学习参数 θ(f) 的卷积网络,输入残差的时间长度由m决定。K(n)生成后,对于每一通道c,我们与当前残差进行卷积运算,来预测下一个残差:在这里插入图片描述
实验验证N=3,n∈{3, 5, 7}。

3.4 Kalman filter correction
最近的顺序特征生成方法更喜欢将多步预测分解为单步预测进行训练,并递归地应用相同的模型进行测试。 由于错误累积,随着序列变长,这种方法通常会导致后续序列质量退化。当前的时间序列优化方法 (BPTT),优化过程缺乏对中间阶段监督的能力。因此,初始阶段的误差会对后面的预测产生负面影响。因此我们加入Kalman filter来缓解这种影响。
【关于卡尔曼滤波算法的讲解:讲解1讲解2
大概就是包含Predict和Update两个规则,来递归地估计内部状态。本文中,内部状态即式(2)中的预测特征d,Predict为生成未来残差的RGN,Update为:
在这里插入图片描述
Z(t)为t帧的groundturth feature,d(t-)是先前的预测特征,Γ(t)为卡尔曼增益,其更新规则为:在这里插入图片描述
Update通过Z(t)和和先前的预测d(t-)来校正当前预测。Γ(t)的具体实现为具有 LSTM 和可学习参数 θ(z) 的 ConvNet。

我们将Kalman filter的更新步骤合并到RGN的训练中,在获得d(t-)之后开始校正,校正后的特征d(t+)随后用于(t+1)的预测和损失计算。训练中可以得到整个视频的真实特征Z(t),而测试中只能通过最终观测部分X(k)获得真实观测值。但即使这样,卡尔曼滤波提供的瞬时校正也有助于稳定长期推理。
在这里插入图片描述
图3. Kalman Update Procedure. 先验预测d(t-)用卡尔曼增益更新,得到d(t+)用于下一个时间的推理。

3.5 Learning scheme
有两组可训练的参数,分别为RGN中的θ(f)和卡尔曼滤波器中的θ(z)。两阶段训练,我们首先训练 θf,因为它对我们执行基本预测而不是校正的整体方法更重要。最终预测和校正必须协同工作;所以,θf 和 θz 在我们的第二阶段联合训练。

θ(f)的优化包含四部分损失,在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(7)与残差有关,(8)与特征有关,增加了(9)(10)来修正(7)(8)在高斯假设下的误差。
在这里插入图片描述

3.6 Unified model for all observation ratios
Training. 输入观察到的残差,递归生成剩余的所有残差。换句话说,我们的模型被训练用于从相同的起点预测整个序列,因此完全忽略了观察率。
Testing. 卡尔曼滤波器只在观察到的视频中对估计值进行校正,后面未观察到的视频只进行预测。

4. Empirical evaluation

4.1 Datasets and experiment protocol
datasets:UCF101, JHMDB21, BIT

4.2 Implementation details
分类器的微调。
network configurations
training strategy

4.3 Results
ON UCF101:
在这里插入图片描述

ON BIT:在这里插入图片描述

ON JHMDB21 initial 20% of the videos are observed:
在这里插入图片描述
4.4 Influence of temporal model
在这里插入图片描述

4.5 Influence of feature layers
the influence of different intermediate feature spaces on prediction:
在这里插入图片描述

5.Conclusions

提出了一种新颖的时空特征残差传播方法。该方法具有更好保留中间层ConvNet特征的空间结构、通过残差处理捕获基本信息的紧凑表示以及通过瞬时卡尔曼滤波器校正的长期稳定性等优点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值