简介
这是paddle论文复现课程推荐的cvpr2019的一篇视频分类论文。继TSN之后,很多视频分类算法开始使用光流信息来建模运动信息,获得了不错的精度的同时,速度受到了一定的影像。本篇文章提出使用神经网络来建模运动,替代传统的光流,从而实现一个更快的速度。
方法
本文提出了一个完全可微的卷积层,称作representation flow layer,来代替光流提取特征,并且所有的参数都可以端到端学习。
本文提出的卷积层受TV-L1算法启发设计,TV-L1算法的介绍可以参考知乎大佬的帖子。
在TV-L1的基础上,本文的算法去掉了多尺度的计算和warp的过程,从而加快迭代进度。此外,TV-L1公式中的参数都是可以通过端到端的学习得到的,迭代的过程完全可微,因此可以把representation flow layer嵌入到网络的任意一层中。
最终,本文通过实验证明把representation flow layer放在第三个block计算表示流效果最佳,网络结构如图所示:
其中,representation flow layer的算法如下: