SlowFast Networks for Video Recognition [ICCV-2019]
一、背景介绍:
首先作者提出的想法: 我们一般处理2D图像的时候,很自然地会对称的处理两个维度x,y,但如果是加了时间维度的视频呢?运动是方向的时空对应物,但所有时空方向的可能性都不相等 慢动作比快动作更有可能发生,这个有生物学依据:作者提到论文中的方法是受灵长类生物 细胞生物学研究的启发,存在两类细胞,P细胞和M细胞,M细胞在高时间频率下工作,对快速的时间变化做出反应,而P细胞在低时间频率下提供精细的空间细节和颜色。
举例: 例如,在挥舞动作的过程中,挥手不会改变他们的“手”身份,一个人总是属于“人”类别,即使他/她可以从走路过渡到跑步。因此,分类语义的识别(以及它们的颜色、纹理、光照等)可以相对缓慢地刷新。另一方面,被执行的动作可以比他们的主体身份进化得更快,比如拍手、挥手、摇晃、行走或跳跃。可以期望使用快速刷新帧(高时间分辨率)来有效地模拟潜在的快速变化的运动。
如果时间和空间方向上的可能性不同,那么我们就没有理由对称的处理空间和时间维度,基于这种直觉,作者提出了一种用于视频识别的双路径SlowFast模型(图1)。其中一种路径旨在捕捉图像或少量稀疏帧提供的语义信息,其运行速度较低,刷新速度较慢。相比之下,另一种路径负责捕捉快速变化的运动,刷新速度快,时间分辨率高。
这种方法和双流算法的区别在哪里?
1、 双流算法的两个流采用相同的主干结构
2、双流算法需要计算光流信息、论文中提出的网络模型是从原始数据中端到端学习
二、理论方法:
![image-20220111150137514](https://cdn.jsdelivr.net/gh/IYoreI/PicGo@main/img/202201111501686.png)
整体网络框架包含了一个低帧率的Slow路径和一个高帧率的Fast路径
τ \tau τ : slow路径采样频率
T T T : slow路径采样的总帧数
α \alpha α :fast路径采样频率为 τ / α \tau/\alpha τ/α
Slow路径:
输入的是低帧率的采样数据,使用一个较大的时序跨度,由参数 τ \tau τ设置
Fast路径:
采样速率为慢路径的 α = 8 \alpha = 8 α=