1.基本思想
场景:动作在变,环境不变
需要解决的问题:如何获取动作信息和环境信息?
对于环境信息,我们可以取视频中的某一帧出来,利用卷积等方式提取特征,即可获取环境信息。对于动作信息,我们可以采样出视频中的包含时间信息的图像序列,通过3D卷积等方式提取特征。
但是,我们需要考虑一个问题,即速度,假如我们对每一帧进行处理,网络复杂度比较大,无法满足实时处理的需求。但是,对于一个动作,虽然是一个连续的过程,我们也可以通过有间隔的采样去表示这个动作。这样就能够减少大量的运算。
2.网络结构分析
Slow Fast具有两条路径,(i)一个缓慢的路径,在低帧率下运行,以捕