【论文笔记】SlowFast Networks for Video Recognition

1,摘要

本论文提出了用于视频识别的SlowFast网络。该模型包含:1)Slow路径,以低帧率运行,用于捕捉空间语义信息;2)Fast路径,以高帧率运行,以较好的时间分辨率捕捉运动。可以通过减少Fast路径的通道容量,使其变得非常轻,同时学习有用的时间信息用于视频识别。该模型在视频动作分类和检测方面性能强大,而且SlowFast概念带来的重大改进是本论文的重要贡献。在没有任何预训练的情况下,本论文在Kinetics数据集上的准确率达到了79.0%,远远超过之前的最佳水平。在AVA动作检测数据集上,我们也达到了28.3 Map,是当前最佳水平。

2,介绍

在图像识别领域,对称地处理图像I(x,y)中的两个空间维度x和y是常见的做法。这是由于自然图像具有第一近似各向同性(所有方向具有相同的可能性)和平移不变性。但是对于视频信号I(x,y,t)来说,并非所有的时空方向都有相同的可能性。所以我们就不应该像时空卷积那样对称地处理时间和空间。相反,我们应该“分解”该架构,分别处理空间结构和时间事件。

视觉内容的类别空间语义变化通常十分缓慢,例如,挥手不会在这个动作进行期间改变“手”的识别结果,并且人也总是在“人”类别下,即使他/她从走路变成跑步。因此,类别语义(及其颜色、纹理、光照等)的识别可以相对缓慢地刷新。另一方面,正在执行的动作比其主体识别变化速度快得多,例如拍手、挥手、摇晃、走路或跳跃。应该用快速刷新帧(高时间分辨率)来有效建模可能快速变化的动作。

基于这种想法,本文提出了一种用于视频识别的双路径Slow-Fast模型(如图1)。其中一个路径旨在捕获由图像或稀疏帧提供的语义信息,它以低帧率运行,刷新速度慢。而另一个路径用于捕获快速变化的动作,它的刷新速度快、时间分辨率高。尽管如此,该路径的却是轻量级的,只占总计算开销的20%左右。这是因为第二个路径通道较少,处理空间信息的能力较差,但这些信息可以由第一个路径用较为简洁的方式来提供。根据二者不同的时间速度,作者将其分别命名为Slow路径和Fast路径。二者通过横向连接(lateral connection)进行融合。
在这里插入图片描述
图1 slowfast 网络

3. SlowFast 网络

SlowFast网络可以被描述为以两种不同帧率运行的单一流结构,SlowFast使用通道的概念与生物上的P细胞和M细胞做类比。SlowFast的通用架构有一个Slow路径(Slow pathway)(第3.1节)和一个Fast 路径(Fast pathway)(第3.2节),Fast 路径通过与Slow 速网络的横向连接进行融合(第3.3节)。图1说明了SlowFast的概念。

3.1 Slow路径

Slow路径可以是任何卷积模型[12, 49, 5, 56],其工作在视频片段作为一个时空体积。Slow路径中的关键概念是输入帧上的大时间补偿 τ τ τ,也就是说,它只处理 τ τ τ帧中的一个。Slow路径研究的 τ τ τ的典型值是16——对于30帧每秒的视频,刷新速度大约是每秒2帧采样。将Slow路径采样的帧数表示为 T T T,原始视频长度则为 T × τ T\timesτ T×τ帧。

3.2 Fast 路径

与Slow路径并行,Fast路径是另一个卷积模型,具有以下特性。

  1. 高帧率
    Fast路径的目标是在时间维度上得到一个良好的表示,Fast路径使用很小的时间步长 τ / α τ/α τ/α,其中 α > 1 α> 1 α>1是快速和慢路径之间的帧率比。两条路径在同一个原始视频片段上操作,Fast通路的样本是 α T αT αT帧,比Slow通路的密度大 α α α倍。在实验中α= 8。 α α α是SlowFast概念的关键(图1,时间轴),它明确地指出,两条路径以不同的时间速度工作,从而驱动两个子网络以特有的方式通过两条路径分别实例化。

  2. 高时间分辨率特征
    Fast路径不仅具有高输入分辨率,而且在整个网络结构上追求高分辨率的特征。在实例中,整个Fast路径中均不使用时间下采样层(既不使用时间池化也不使用时间步长的卷积操作),这样一来,特征张量在时间维度上总是具有 α T αT αT帧,尽可能地保持时间保真度。

  3. 低通道容量
    Fast路径与其他模型相比,可以使用显著更低的信道容量来实现SlowFast模型的良好精度。这使Fast路径很轻。Fast路径是与Slow路径类似的卷积网络,但是通道数是Slow路径的 β ( β < 1 ) β(β<1) β(β<1)倍,实验中 β = 1 / 8 β=1/8 β=1/8。注意,公共层的计算量(浮点数运算,或FLOP)通常是信道缩放比率的二次方。这使Fast路径比Slow路径的计算效率更高。在实例中,Fast路径一般占用总计算量的20%。有趣的是,灵长类视觉系统中的M细胞(对快速运动敏感,但不对颜色或空间细节敏感)占视网膜细胞的比例也约为15%-20%。
    低通道容量也可以理解为表示空间语义信息的能力较弱,所以其空间建模容量也比Slow路径要低。但是结果显示,削弱Fast路径的空间建模能力的同时增强其时间建模能力是正向的折衷。基于这一解释,论文还探讨了在Fast路径中削弱空间容量的不同方式,包括减少输入空间分辨率和去除颜色信息。结果均显示这些方法都能达到较好的准确率,这表明空间容量较小的轻量快速通道是有益的。

3.3 横向连接

两条路径的信息是融合的,所以一条路径是知道另一条路径学习的表示的。我们通过横向连接实现这一点,横向连接已被用于融合基于光流的双流网络[12, 13]。在图像目标检测中,横向连接 [35]是融合不同空间分辨率和不同语义级别的常用方法。

与[12,35]类似,在每个“阶段”的两个路径之间附加一个横向连接(图1),特别是对于ResNets[24],这些连接位于pool1、res2、res3和res4之后。这两条路径有不同的时间维度,因此横向连接进行转换以匹配它们(详见3.4节)。我们使用单向连接,将Fast路径的特征融合到Slow路径中(图1)。我们对双向融合进行了实验,发现了类似的结果。最后,对每个路径的输出进行全局平均池化。然后将两个合并的特征向量连接,作为全连接分类器层的输入。

3.4 网络实现

SlowFast是通用的,它可以用不同的骨干(例如,[45,47,24])有不同的实现。表1给出了一个SlowFast模型的实例化示例。

在这里插入图片描述
表1 SlowFast 网络的实例化示例,内核的维度由 { T × S 2 , C } \{T×S^2, C\} {T×S2,C} 表示, T T T 表示时间分辨率、 S S S 表示空间语义、 C C C 表示通道数。步长由 { 时 间 步 数 , 空 间 步 数 2 } \{时间步数,空间步数^2\} {2} 表示。此处 速度比例是α = 8,通道比例是 β = 1/8。τ = 16。绿色表示 Fast 路径较高的时间分辨率,橙色表示 Fast 路径较少的通道数。下划线为非退化时间滤波器(non-degenerate temporal filter)。方括号内是残差块。骨干网络是 ResNet-50。

表1中指定了一个示例SlowFast模型。用 T × S 2 T×S^2 T×S2表示时空大小,其中T为时间长度,S为正方形空间作物的高度和宽度。下面将详细说明。

Slow 路径

表1中的Slow 路径是由[12]修改而来的一个时间跨越的3D ResNet。从一个时间步长 τ = 16 τ= 16 τ=16的64帧原始视频段中稀疏采样。个实例化过程中不执行时间下采样,因为当输入步数很大时,这样做是不利的。

与典型的C3D / I3D模型不同,SlowFast 仅在res4和res5中使用了非退化的时间卷积(时间核大小> 1,在表1中标注);在这个路径中,从conv1到res3的所有滤波器本质上都是2D卷积核。这是由于在实验观察,在较早的层中使用时间卷积会降低精度。这是因为当物体移动得很快,时间步幅很大时,除非空间感受域足够大(即在后面的层次中),否则时间感受域内的相关性很小。

Fast 路径

表1显示了α= 8和β= 1/8的Fast路径的例子。它具有更高的时间分辨率(绿色)和较低的信道容量(橙色)。

Fast路径在每个块中都有非退化的时间卷积。根据观察,Fast路径持有良好的时间分辨率的时间卷积捕捉详细的运动。此外,设计的Fast路径没有时间下采样层。

横向连接

横向连接从Fast路径合到Slow 路径,这使得Slow通道可以了解Fast通道的处理结果。在融合前需要匹配特征尺寸。Slow 路径的特征形状为 { T , S 2 , C } \{T, S^2, C\} {T,S2,C},Fast路径的特征形状为 { α T , S 2 , β C } \{αT, S^2,βC\} {αT,S2βC},两个路径是不同的。这要求SlowFast对Fast通道的结果进行数据变换,然后融入Slow通道。论文给出了三种进行数据变换的技术思路,其中第三个思路在实践中最有效。

  1. Time-to-channel:将{αT, S², βC} 变形转置为 {T , S², αβC},就是说把α帧压入一帧
  2. Time-strided采样:简单地每隔α帧进行采样,{αT , S², βC} 就变换为 {T , S², βC}
  3. Time-strided卷积: 用一个 5 × 1 2 5×1^2 5×12的核进行3d卷积, 2βC输出频道,跨度= α.

横向连接的输出通过累加或连接的方式融合到Slow路径中。

在每个通道的末端,SlowFast执行全局平均池化,一个用来降维的标准操作,然后组合两个通道的结果并送入一个全连接分类层,该层使用softmax来识别图像中发生的动作。

参考文献

[5] J. Carreira and A. Zisserman. Quo vadis, action recognition?a new model and the kinetics dataset. In Proc. CVPR, 2017.1, 2, 5

[12] C. Feichtenhofer, A. Pinz, and R. Wildes. Spatiotemporal residual networks for video action recognition. In NIPS, 2016. 2, 3

[13] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In Proc. CVPR, 2016. 2, 3

[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proc. CVPR, 2016. 2, 3, 4, 8

[35] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection.In Proc. CVPR, 2017. 3, 7

[45] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In Proc. ICLR, 2015. 2, 3, 4

[47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proc. CVPR, 2015. 2, 3

[49] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri.Learning spatiotemporal features with 3D convolutional networks. In Proc. ICCV, 2015. 1, 2

[56] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. In Proc. CVPR, 2018. 2, 4, 5, 6, 7, 8

参考

【论文翻译】SlowFast Networks for Video Recognition

Facebook何恺明团队提出SlowFast网络,视频识别无需预训练

slowfast网络解读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值