Representation Flow for Action Recognition论文解读
1 简介
这是2019 CVPR视频动作识别领域的最新论文,出自印第安纳大学的AJ Piergiovanni 和 Michael S. Ryoo之手。
文章受光流算法启发提出可以学习运动表征的表示流卷积层,该表示流层对于光流迭代的优化的所有参数都可以通过和其他卷积网络一起进行end-to-end的学习得到,并且实现了动作识别性能的提升。
文章也通过叠加多重表示流层,提出了FOF(flow of flow)、FCF(flow-conv-flow)的概念。
实验表明,本文提出的表示流实现了计算速度和性能的最优。
2 详情
2.1 背景
之前双流法(Two Stream)中光流的计算量太大,每帧通常需要成百上千次优化迭代;同时学习两个分开的CNN流,使得计算量巨大且要学的参数量也巨大,限制了实时性;
2.2 光流介绍
光流是Gibson在1950年首先提出来的。
它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
简单来说,光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场。
在运动微小的前提下,利用泰勒公式展开:
当Δt足够小,趋近于0时有:
这便是光流约束方程。
2.3 TV-L1求光流
其中theta、tao、lamda等参数都是人工手动设置的。初始化u=0,通过成百上千次迭代,最终求出u,进而获得运动信息。
2.4 Representation flow方法
算法和TV-L1算法基本一致,但是参数可由网络学习得到。
其中梯度通过Sobel 算子求出,直接用特征图和Sobel滤波器相乘即可:
2.5 Representation flow方法和TV-L1对比
1)Representation flow只使用单一的尺度,而TV-L1使用多重尺度;
2)Representation flow不使用任何的warp;
3)Representation flow在更小空间尺寸的CNN tensor上计算光流;
3 实验过程
实验表明,在ResNet的Block3之后计算Representation flow效果最好。
实验表明,只学习Divergence、tao、lanmda、theta时效果最好。
实验表明,传统的TV-L1方法效果随着迭代次数的增加,效果越来越好。但是Representation flow迭代次数100次效果反而不如50次,同时20次和50次差别不大,所以出于计算成本的考虑选用20次迭代。
4 实验结果
与其它state-of-the-art方法相比,Representation flow实现了性能和计算速度的最优。
参考原论文:https://arxiv.org/abs/1810.01455
推荐阅读:
视频动作识别调研:https://blog.csdn.net/qq_41590635/article/details/101478277
视频动作检测最新发展调研:https://blog.csdn.net/qq_41590635/article/details/101553059