【论文笔记】SlowFast Networks for Video Recognition

最新推荐文章于 2024-03-14 19:48:47 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-03-14 19:48:47 发布

阅读量3.4k

点赞数 5

文章标签：计算机视觉机器学习人工智能 slowfast

本文链接：https://blog.csdn.net/WhiffeYF/article/details/113867393

版权

1，摘要

本论文提出了用于视频识别的SlowFast网络。该模型包含：1）Slow路径，以低帧率运行，用于捕捉空间语义信息；2）Fast路径，以高帧率运行，以较好的时间分辨率捕捉运动。可以通过减少Fast路径的通道容量，使其变得非常轻，同时学习有用的时间信息用于视频识别。该模型在视频动作分类和检测方面性能强大，而且SlowFast概念带来的重大改进是本论文的重要贡献。在没有任何预训练的情况下，本论文在Kinetics数据集上的准确率达到了79.0%，远远超过之前的最佳水平。在AVA动作检测数据集上，我们也达到了28.3 Map，是当前最佳水平。

2，介绍

在图像识别领域，对称地处理图像I(x,y)中的两个空间维度x和y是常见的做法。这是由于自然图像具有第一近似各向同性（所有方向具有相同的可能性）和平移不变性。但是对于视频信号I(x,y,t)来说，并非所有的时空方向都有相同的可能性。所以我们就不应该像时空卷积那样对称地处理时间和空间。相反，我们应该“分解”该架构，分别处理空间结构和时间事件。

视觉内容的类别空间语义变化通常十分缓慢，例如，挥手不会在这个动作进行期间改变“手”的识别结果，并且人也总是在“人”类别下，即使他/她从走路变成跑步。因此，类别语义（及其颜色、纹理、光照等）的识别可以相对缓慢地刷新。另一方面，正在执行的动作比其主体识别变化速度快得多，例如拍手、挥手、摇晃、走路或跳跃。应该用快速刷新帧(高时间分辨率)来有效建模可能快速变化的动作。

基于这种想法，本文提出了一种用于视频识别的双路径Slow-Fast模型（如图1）。其中一个路径旨在捕获由图像或稀疏帧提供的语义信息，它以低帧率运行，刷新速度慢。而另一个路径用于捕获快速变化的动作，它的刷新速度快、时间分辨率高。尽管如此，该路径的却是轻量级的，只占总计算开销的20%左右。这是因为第二个路径通道较少，处理空间信息的能力较差，但这些信息可以由第一个路径用较为简洁的方式来提供。根据二者不同的时间速度，作者将其分别命名为Slow路径和Fast路径。二者通过横向连接（lateral connection）进行融合。
在这里插入图片描述
图1 slowfast 网络

3. SlowFast 网络

SlowFast网络可以被描述为以两种不同帧率运行的单一流结构，SlowFast使用通道的概念与生物上的P细胞和M细胞做类比。SlowFast的通用架构有一个Slow路径（Slow pathway）(第3.1节)和一个Fast 路径（Fast pathway）(第3.2节)，Fast 路径通过与Slow 速网络的横向连接进行融合(第3.3节)。图1说明了SlowFast的概念。

3.1 Slow路径

Slow路径可以是任何卷积模型[12, 49, 5, 56]，其工作在视频片段作为一个时空体积。Slow路径中的关键概念是输入帧上的大时间补偿 $τ$ ，也就是说，它只处理 $τ$ 帧中的一个。Slow路径研究的 $τ$ 的典型值是16——对于30帧每秒的视频，刷新速度大约是每秒2帧采样。将Slow路径采样的帧数表示为 $T$ ，原始视频长度则为 $T\timesτ$ 帧。

3.2 Fast 路径

与Slow路径并行，Fast路径是另一个卷积模型，具有以下特性。

高帧率
Fast路径的目标是在时间维度上得到一个良好的表示，Fast路径使用很小的时间步长 $τ / α$ ,其中 $α > 1$ 是快速和慢路径之间的帧率比。两条路径在同一个原始视频片段上操作，Fast通路的样本是 $α T$ 帧，比Slow通路的密度大 $α$ 倍。在实验中α= 8。 $α$ 是SlowFast概念的关键(图1，时间轴)，它明确地指出，两条路径以不同的时间速度工作，从而驱动两个子网络以特有的方式通过两条路径分别实例化。
高时间分辨率特征
Fast路径不仅具有高输入分辨率，而且在整个网络结构上追求高分辨率的特征。在实例中，整个Fast路径中均不使用时间下采样层（既不使用时间池化也不使用时间步长的卷积操作），这样一来，特征张量在时间维度上总是具有 $α T$ 帧，尽可能地保持时间保真度。
低通道容量
Fast路径与其他模型相比，可以使用显著更低的信道容量来实现SlowFast模型的良好精度。这使Fast路径很轻。Fast路径是与Slow路径类似的卷积网络，但是通道数是Slow路径的 $β (β < 1)$ 倍，实验中 $β = 1 / 8$ 。注意，公共层的计算量（浮点数运算，或FLOP）通常是信道缩放比率的二次方。这使Fast路径比Slow路径的计算效率更高。在实例中，Fast路径一般占用总计算量的20%。有趣的是，灵长类视觉系统中的M细胞（对快速运动敏感，但不对颜色或空间细节敏感）占视网膜细胞的比例也约为15%-20%。
低通道容量也可以理解为表示空间语义信息的能力较弱，所以其空间建模容量也比Slow路径要低。但是结果显示，削弱Fast路径的空间建模能力的同时增强其时间建模能力是正向的折衷。基于这一解释，论文还探讨了在Fast路径中削弱空间容量的不同方式，包括减少输入空间分辨率和去除颜色信息。结果均显示这些方法都能达到较好的准确率，这表明空间容量较小的轻量快速通道是有益的。

3.3 横向连接

两条路径的信息是融合的，所以一条路径是知道另一条路径学习的表示的。我们通过横向连接实现这一点，横向连接已被用于融合基于光流的双流网络[12, 13]。在图像目标检测中，横向连接 [35]是融合不同空间分辨率和不同语义级别的常用方法。

与[12,35]类似，在每个“阶段”的两个路径之间附加一个横向连接（图1），特别是对于ResNets[24]，这些连接位于pool1、res2、res3和res4之后。这两条路径有不同的时间维度，因此横向连接进行转换以匹配它们(详见3.4节)。我们使用单向连接，将Fast路径的特征融合到Slow路径中(图1)。我们对双向融合进行了实验，发现了类似的结果。最后，对每个路径的输出进行全局平均池化。然后将两个合并的特征向量连接，作为全连接分类器层的输入。

3.4 网络实现

SlowFast是通用的，它可以用不同的骨干(例如，[45,47,24])有不同的实现。表1给出了一个SlowFast模型的实例化示例。

在这里插入图片描述
表1 SlowFast 网络的实例化示例，内核的维度由 ${T×S^2, C\}$ 表示， $T$ 表示时间分辨率、 $S$ 表示空间语义、 $C$ 表示通道数。步长由 ${时间步数，空间步数^2\}$ 表示。此处速度比例是α = 8，通道比例是 β = 1/8。τ = 16。绿色表示 Fast 路径较高的时间分辨率，橙色表示 Fast 路径较少的通道数。下划线为非退化时间滤波器（non-degenerate temporal filter）。方括号内是残差块。骨干网络是 ResNet-50。

表1中指定了一个示例SlowFast模型。用 $T×S^2$ 表示时空大小，其中T为时间长度，S为正方形空间作物的高度和宽度。下面将详细说明。

Slow 路径

表1中的Slow 路径是由[12]修改而来的一个时间跨越的3D ResNet。从一个时间步长 $τ = 16$ 的64帧原始视频段中稀疏采样。个实例化过程中不执行时间下采样，因为当输入步数很大时，这样做是不利的。

与典型的C3D / I3D模型不同，SlowFast 仅在res4和res5中使用了非退化的时间卷积(时间核大小> 1，在表1中标注);在这个路径中，从conv1到res3的所有滤波器本质上都是2D卷积核。这是由于在实验观察，在较早的层中使用时间卷积会降低精度。这是因为当物体移动得很快，时间步幅很大时，除非空间感受域足够大(即在后面的层次中)，否则时间感受域内的相关性很小。

Fast 路径

表1显示了α= 8和β= 1/8的Fast路径的例子。它具有更高的时间分辨率(绿色)和较低的信道容量(橙色)。

Fast路径在每个块中都有非退化的时间卷积。根据观察，Fast路径持有良好的时间分辨率的时间卷积捕捉详细的运动。此外，设计的Fast路径没有时间下采样层。

横向连接

横向连接从Fast路径合到Slow 路径，这使得Slow通道可以了解Fast通道的处理结果。在融合前需要匹配特征尺寸。Slow 路径的特征形状为 ${T, S^2, C\}$ ，Fast路径的特征形状为 ${αT, S^2，βC\}$ ，两个路径是不同的。这要求SlowFast对Fast通道的结果进行数据变换，然后融入Slow通道。论文给出了三种进行数据变换的技术思路，其中第三个思路在实践中最有效。

Time-to-channel：将{αT, S², βC} 变形转置为 {T , S², αβC}，就是说把α帧压入一帧
Time-strided采样：简单地每隔α帧进行采样，{αT , S², βC} 就变换为 {T , S², βC}
Time-strided卷积: 用一个 $5×1^2$ 的核进行3d卷积， 2βC输出频道，跨度= α.

横向连接的输出通过累加或连接的方式融合到Slow路径中。

在每个通道的末端，SlowFast执行全局平均池化，一个用来降维的标准操作，然后组合两个通道的结果并送入一个全连接分类层，该层使用softmax来识别图像中发生的动作。

参考文献

[5] J. Carreira and A. Zisserman. Quo vadis, action recognition?a new model and the kinetics dataset. In Proc. CVPR, 2017.1, 2, 5

[12] C. Feichtenhofer, A. Pinz, and R. Wildes. Spatiotemporal residual networks for video action recognition. In NIPS, 2016. 2, 3

[13] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In Proc. CVPR, 2016. 2, 3

[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proc. CVPR, 2016. 2, 3, 4, 8

[35] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection.In Proc. CVPR, 2017. 3, 7

[45] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In Proc. ICLR, 2015. 2, 3, 4

[47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proc. CVPR, 2015. 2, 3

[49] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri.Learning spatiotemporal features with 3D convolutional networks. In Proc. ICCV, 2015. 1, 2

[56] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. In Proc. CVPR, 2018. 2, 4, 5, 6, 7, 8