论文地址:https://arxiv.org/pdf/1812.03982v1.pdf
1.Abstract
作者提出了用于视频识别的快速网络。模型包括(i)一个缓慢的路径,在低帧率下运行,以捕获空间语义,以及(ii)一个快速的路径,在高帧率下运行,以捕获精细时间分辨率的运动。快速路径可以通过减少其通道容量而变得非常轻,但也可以学习有用的时间信息用于视频识别。
2.Introduction
在识别图像I(x,y)时,通常会对称地处理两个空间维x和y。以近似图像的各向同性——所有的方向都是等可能的——和移位-不变的[38,23]。但是,对于视频信号I (x、y、t),运动是方向[1]的时空对等物,但所有的时空方向的可能性并不相等。慢动作比快动作更有可能(事实上,我们看到的世界上大部分都在给定的时刻处于静止状态),这在人类如何感知运动刺激[51]的贝叶斯描述中得到了利用。例如,如果我们看到一个孤立的运动边缘,我们就认为它是垂直于自身移动的,即使原则上它也可能有一个与自身相切的任意运动分量(光流中的孔径问题)。如果先前有利于缓慢的动作,