【视频理解】十二、SlowFast

travellerss

已于 2023-09-17 09:06:26 修改

阅读量146

点赞数 1

分类专栏：视频理解文章标签：人工智能计算机视觉

于 2022-11-06 22:28:38 首次发布

本文链接：https://blog.csdn.net/qq_30196905/article/details/127722565

版权

视频理解专栏收录该内容

15 篇文章 6 订阅

订阅专栏

参考资料

论文：

SlowFast Networks for Video Recognition
博客：

SlowFast Networks

SlowFast Networks for Video Recognition文章及代码解析

【Video Recognition】SlowFast Network 用快慢结合进行视频分类

SlowFast Networks for Video Recognition

第1章引言

我们所看到的世界大多数是属于静止的，在人类视觉细胞研究中研究者发现，视觉细胞由80%的P-Cell和20%的M-Cell组成，其中P-Cell对颜色、形状等图像信息更加敏感，而M-Cell对时间变化更加敏感。

例如一个跳跃动作，整个过程中图像中的视觉语义信息是变化比较缓慢的，而相反移动、跳跃这些动作在时序上变化较快。

我们是否能利用两个不同的网络对时序变化不同的信息进行捕捉，从而改善网络性能是这篇文章的主要思想，而基于上述研究与分析，作者提出了 SlowFast 网络。

SlowFast 模型包括两部分：Slow pathway 和 Fast pathway ：

（1）Slow pathway 的主要作用是做空间的语义处理，所以它的特点是抽帧少（只关注图像特征），网络规模大（抽象语义特征）。

（2） Fast pathway 的主要作用是做时序的信息处理，所以它的特点是抽帧多（考虑动作连续性），网络规模小（不需要获取复杂的特征）。

Slow pathway 负责掌握空间信息，Fast pathway 负责掌握时间信息，作者并没有使用光流，而是更加关注不同的时序速率对视频分类的影响。

第2章网络结构

2.1 SlowFast Network

SlowFast 网络可以被描述为以两种不同帧速率运行的单流（都是RGB）体系结构，有一条Slow的道路和Fast通道，通过横向连接至SlowFast网络。如下图 Fig 1 所示。

在这里插入图片描述

Fig 1. SlowFast Network

文中将 $H, W$ 放入到一个维度上，为了把重点的 $C, T$ 凸显出来。 $Sl o w$ 分支，为了捕获更多的细粒度信息，其 $C hann e l$ 上的维度是充足的，而与之比较的 $F a s t$ 分支，其就显得很窄，是 $βC$ 。与之对应的是时间维度 $T$ ，我们知道 $F a s t$ 分支需要捕获那些运动信息，其需要更多的帧，因此其是 $α T$ 。

作者在实验中设置的是， $α = 8$ ， $β=\frac{1}{8}$ 。

还要注意的一个细节就是两个分支之间都是一条通路连接，直到最后一层才会连接在一起直至融合，去预测判断分类。

2.2 Slow pathway

Slow 路径可以是任何卷积模型，例如时空残差网络，C3D，I3D，Non-local网络等。

Slow 路径的关键概念是输入帧上的大时间跨度 $τ$ （这里的"大"是指时间维度的步长较fast路径更长些），即它只处理 $τ$ 帧中的一个。我们研究的一个典型的 $τ$ 值是16。Slow 路径采样后的帧数表示为 $T$ ，则原始剪辑长度为 $T \times τ$ 帧(因为每 $τ$ 帧采样一帧)。

对于30 fps的视频来说，它就是每秒30帧，本文中 Slow 路径的采样频率是每隔16帧，取其中的一帧，30帧的视频大概只能取其中的两帧作为输入，所以每秒大概只能取到2帧。

2.3 Fast pathway

Fast Pathway 是一个轻量级的时序信息提取模型。为减少运算量以及让模型专注于时序信息提取，作者设计时主要有以下几点：

High frame rate（高帧率）
High temporal resolution features（高分辨率）
Low channel capacity（低通道容量）
Low input spatial resolution（低输入空间信息）

（1）更高的采样帧率

Slow 路径是每 $τ$ 帧采样一帧(设置 $τ$ 等于16)，Fast路径采样更快，以 $\frac{τ}{α}$ 的步幅采样，其中 $α > 1$ 是快速和慢速通道之间的帧速率比，因此 Fast路径采样密度是 Slow 路径的 $α$ 倍。

一个典型值是 $α = 8$ ，也就是说Fast路径每2帧采样1帧。

（2）高时间分辨率特征

对于Fast路径而言，它在时间维度上追求高分辨率特征，既不使用时间池化也不使用时间步卷积，直到分类前的全局池化层，尽可能保持时间准确度。

Slow路径采样后的帧数表示为 $T$ ，Fast路径采样密度是Slow路径的 $α$ 倍，故为 $α T$ 帧。

（3）低通道容量

Fast路径可以通过减少通道容量而变得非常轻量。Fast路径的通道数是Slow路径的 $β$ 倍（ $β < 1$ ），通常 $β = 1/8$ 。这使得Fast途径比Slow途径更具计算效率。

低通道容量也可以被解释为表示空间语义的能力较弱。因为Fast路径通道较少，因此它的空间建模能力应该低于Slow路径。模型的结果表明，在增强fast路径的时间建模能力的同时，弱化Fast路径的空间建模能力是一种理想的折衷方法。

（4）较低的输入空间信息

为了进一步削弱FastPath网络的空间建模能力，作者这里还提出降低输入图像空间分辨率、去除颜色信息等方式，使得网络能更加注重时序信息的变化。

2.4 Lateral connections

Slow路径学习空间信息，Fast路径学习时间信息，和Two-Stream网络的两个分支一样需要在预测前进行融合。作者通过横向连接来实现，主要思想就是和 特征金字塔 一样，是一种融合不同层次空间分辨率和语义的常用技术。

那为什么不双向连接呢，作者的实验表示的是结果是类似的。

Slow路径输出的特征图大小为 $S^2,T,C)$ ，Fast路径输出的特征图大小为 $S^2,αT,βC)$ ，其中 $β = 1/8$ ， $α = 8$ 。两个特征大小都不一样，作者提出了以下3种融合方式：

Time-to-channel：将 ${ αT,S^2,βC \}$ reshape为 ${ T,S^2,αβC \}$ 再融合。
Time-strided sampling：将 ${ αT,S2,βC \}$ 进行采样成 ${ T,S^2,βC \}$ 再融合。
Time-strided convolution：用3D卷积，其中卷积核为 $5\times1\times1$ ，个数为 $2 βC$ ，步长 $2$ 。