人体行为识别：SlowFast Networks for Video Recognition

最新推荐文章于 2024-04-25 16:19:33 发布

huangyiping_dream

最新推荐文章于 2024-04-25 16:19:33 发布

阅读量6.4k

点赞数 6

分类专栏：人体行为识别

本文链接：https://blog.csdn.net/huangyiping12345/article/details/106806338

版权

参考文献：https://arxiv.org/abs/1812.03982
代码实现：https://github.com/facebookresearch/SlowFast

SlowFast Networks for Video Recognition

摘要

我们提出了用于视频识别的SlowFast网络，模型包括：（i）以低帧速率的慢速路径来捕获空间语义；（ii）以高帧速率的快速路径来捕获精细时间分辨率的运动。快速路径可以通过减少通道容量而变得非常轻量级，并且可以学习有用的时间信息用于视频识别。我们的模型在视频中的行为分类和检测方面都取得了很好的性能，并且我们的SlowFast概念也有很大的改进。我们在没有使用任何预训练的情况下，得到Kinetics数据集的准确率为79.0％，AVA数据集的mAP为28.2%。

1 引言

在图像识别I(x,y)中，通常对两个空间维度x和y进行对称处理。这通过自然图像的统计数据证明是合理的，自然图像是各向同性的，即所有方向都是相同的，并且是位移不变的[41，26]。但是视频信号I(x,y,t)呢？运动是方向的时空对应物[2]，但所有时空方向的可能性并不相同，慢速动作比快速动作更有可能发生（事实上，我们看到的大多数世界都在某个特定时刻处于静止状态），这一点在贝叶斯描述人类如何感知运动刺激时得到了利用[58]。例如，如果我们看到一个孤立的移动边缘，我们认为它是垂直于自身移动的，即使在原则上它也可能有一个与自身相切的任意运动分量（光流中的孔径问题）。特别是对于慢速动作，这个感知是合理的。

如果所有时空方向的可能性都不一样，那么我们就没有理由像基于时空卷积的视频识别方法（理解：用三维卷积核处理视频的3-Dimensional Convolution方法）所隐含的那样，对称地对待空间和时间。相反，我们可以将架构进行“分解”以单独处理空间结构和时间事件。具体来说，让我们从认知的角度来研究这个问题。一方面，视觉内容的分类空间语义通常发展缓慢，例如，在挥手动作的范围内，挥手不会改变其作为“手”的身份，即使一个人可以从步行过渡到跑步，他/她也始终属于“人”类别。因此分类语义（以及它们的颜色、纹理、光照等）的识别可以相对缓慢地刷新。另一方面，正在执行的动作可以比其主体身份更快的发展，比如拍手、挥手、摇晃、行走或跳跃，可以期望使用快速刷新帧（高时间分辨率）来有效地建模潜在的快速变化运动。

基于这一直觉，我们提出了一个用于视频识别的双路径SlowFast模型（图1）。其中一条路径被设计用来捕获图像或少量稀疏帧所提供的语义信息，它以较低的帧速率和较低的刷新速度运行。相反，另一条路径负责捕捉快速变化的运动，它以快速刷新速度和高时间分辨率运行。尽管该路径的时间速率很高，但它非常轻量级，大约占总计算量的20%。这是因为该路径被设计为具有较少的通道和较弱的处理空间信息的能力，而语义信息可以由第一路径以较少冗余的方式提供。我们称第一个为慢速路径，第二个为快速路径，由它们不同的时间速度驱动，这两条路径通过横向连接而融合。
在这里插入图片描述
我们的概念构思可以为视频模型提供灵活有效的设计。快速路径由于其轻量级的特性，不需要执行任何temporal pooling，它可以在所有中间层的高帧速率上操作并保持时间保真度。同时，由于慢速路径具有较低的时间速率，可以更集中于空间域和语义。通过以不同的时间速率处理原始视频，我们的方法允许这两条路径在视频建模方面有自己的专长。

另一种众所周知的视频识别体系结构是双流法[44]，与本文相比提供了概念上的不同视角。双流法[44]没有探索不同时间速度的潜力，这是我们方法中的一个关键概念。双流法对两个流采用相同的主干结构，而我们的快速路径更轻。我们的方法不计算光流，因此，我们的模型是从原始数据端到端学习的。在我们的实验中，我们观察到SlowFast网络在经验上更有效。

我们的方法受到灵长类动物视觉系统中视网膜神经节细胞的生物学研究的启发[27，37，8，14，51]，尽管这种类比是粗糙和过时的。研究发现，在这些细胞中，大约80%是细小细胞（P细胞），大约15-20%是大细胞（M细胞）。M细胞在高时间频率下工作，对快速时间变化有反应，但对空间细节或颜色不敏感。P细胞提供精细的空间细节和颜色，但时间分辨率较低，对刺激反应缓慢。我们的框架类似于：（i）我们的模型有两条分别在低时间分辨率和高时间分辨率下工作的路径；（ii）我们的快速路径被设计成捕捉快速变化的运动，但空间细节较少，类似于M细胞；（iii）我们的快速路径很轻，类似于M细胞的小比例。我们希望这些关系能启发更多的计算机视觉模型用于视频识别。

我们在Kinetics-400[30]、Kinetics-600[3]、Charades[43]和AVA[20]数据集上评估了我们的方法。我们在Kinetics行为分类数据集上的消融研究证明了SlowFast的有效性。SlowFast网络为所有数据集设置了一个新的技术状态，与文献中以前的系统相比有了显著的提高。

2 相关工作

时空滤波

动作可以表示为时空对象，并通过时空中的定向滤波来捕获，如HOG3D[31]和 cuboids[10]所做的。3D ConvNets[48，49，5]将2D图像模型[32，45，47，24]扩展到时空域，以类似的方式处理空间和时间维度。还有一些相关的方法关注使用时间步长的长期滤波和池[52、13、55、62]，以及将卷积分解为单独的2D空间和1D时间滤波器[12、50、61、39]。

除了时空滤波或可分离版本，我们的工作还通过使用两种不同的时间速度来更全面地分离建模专业知识。

用于视频识别的光流

基于光流的手工制作的时空特征是一个经典的研究分支，这些方法包括流动直方图[33]、运动边界直方图[6]和轨迹图[53]，在深度学习盛行之前，已经显示出了在动作识别方面的竞争性能。

在深度神经网络的背景下，双流法[44]通过将光流视为另一种输入模式来利用光流。该方法已成为文献〔12, 13, 55〕中许多竞争性结果的基础。然而，由于光流是一种手工设计的特征，并且两种流方法往往不能端到端地学习，因此在方法上并不令人满意。

3 SlowFast网络

SlowFast网络可以被描述为以两种不同帧速率工作的单流架构，但是我们使用路径的概念来源于与生物小细胞和大细胞的类比。我们的通用架构有一个慢速路径（Sec. 3.1）和快速路径（Sec. 3.2），连接组成了SlowFast网络（Sec. 3.3），见图1。

3.1 慢速路径

慢速路径可以是任何卷积模型（例如[12、49、5、56]），它以时空卷的形式在视频剪辑上工作。慢速路径的关键概念是输入帧上的大时间步长 $τ$ ，即它只处理 $τ$ 帧中的一个。我们研究的 $τ$ 的典型值是16。对于30 fps的视频，刷新速度大约为每秒采样2帧。将慢速路径采样的帧数表示为 $T$ ，原始剪辑长度为 $T \times τ$ 帧。

3.2 快速路径

与慢速路径平行，快速路径是另一个具有以下性质的卷积模型。

高帧速率

我们的目标是在时间维度上有一个很好的表示。我们的快速路径工作在一个小的时间步长 $τ / α$ ，其中 $α > 1$ 是快慢路径之间的帧速率比。两条路径在同一个原始片段上操作，因此快速路径采样 $α T$ 帧， $α$ 是慢速路径的密度的一倍，在我们的实验中的典型值是 $α = 8$ 。

α是SlowFast概念的关键（图1，时间轴），它明确指出了这两条路径在不同时间速度下工作，从而驱动实例化这两条路径的两个子网的专业知识。

高时间分辨率特征

我们的快速路径不仅具有高帧速率，而且在整个网络层次结构中追求高时间分辨率特性。在我们的实例中，我们在整个快速路径中没有使用时间下采样层（既没有时间池也没有时间步卷积），直到分类之前的全局池层。因此，我们的特征张量总是沿着时间维度有

最低0.47元/天解锁文章

huangyiping_dream

关注

6
点赞
踩
50

收藏

觉得还不错? 一键收藏
0
评论
人体行为识别：SlowFast Networks for Video Recognition

参考文献：https://arxiv.org/abs/1812.03982代码实现：https://github.com/facebookresearch/SlowFast包括理解！SlowFast Networks for Video Recognition摘要我们提出了用于视频识别的SlowFast网络，模型包括：（i）以低帧速率的慢速路径来捕获空间语义；（ii）以高帧速率的快速路径来捕获精细时间分辨率的运动。快速路径可以通过减少通道容量而变得非常轻量级，并且可以学习有用的时间信息用于视频识别
复制链接

扫一扫