SlowFast网络阅读笔记

最新推荐文章于 2024-05-31 10:48:07 发布

pissjello

最新推荐文章于 2024-05-31 10:48:07 发布

阅读量1.9k

点赞数 2

分类专栏：视频理解&动作识别文章标签：机器学习计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/weixin_42416780/article/details/104620886

版权

视频理解&动作识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、原文
原文：SlowFast Networks for Video Recognition
作者：Christoph Feichtenhofer，Haoqi Fan，Jitendra Malik，Kaiming He
单位：Facebook AI Research (FAIR)

二、提出背景
在图像识别领域中，通常自然地认为两个空间维度是各向同性的，而在视频领域中的三维信号，所有时空方向的不一定是等同可能性的，那么也就没有理由向基于时空卷积的视频方法所隐含的那样，对称地对待空间和时间。基于这一直觉，作者提出将架构“分解”为单独处理空间结构和时间事件，构造一个双路径SlowFast模型。

SlowFast模型的概念思想在一定程度上启发于生物学研究中所提出的一个观点，即灵长类生物视觉系统中视网膜神经节细胞中80%为小细胞（P细胞），15-20%为大细胞（M细胞）。P细胞提供精细的空间细节和颜色信息，但对时间刺激反应缓慢，而M细胞对快速的时间变化有反应，反而对空间信息不敏感。

SlowFast模型在结构上可能与双流网络模型非常相似，但是在设计概念上却有着很大区别，双流网络中的两个流没有时间速度上的区分，仅是输入数据形式不同，而SlowFast网络的两个分支结构不同，却以可以从原始数据中端到端的学习。

在时空滤波领域，有人将2D图像模型扩展到时空域，以相同的方式处理空间和时间维度[32,45,47,24]，还有一些方法将三维卷积分解为单独的2D空间和1D时间滤波器[12,50,61,39]，而SlowFast模型追求使用不同的时间速度更彻底地分离空间和时间网络；在光流方面，基于光流的手工时空特征是一个经典的研究分支[33,6,53]，而深度学习方法双流网络[44]将光流作为其空间流的输入处理，但其网络更加分散，双流无法端到端一起学习。

二、SlowFast模型
SlowFast网络描述为以两种不同的帧速率工作的单流框架融合而成，其中其中慢路径以较低帧速率运行用以捕获图片或稀疏帧的空间语义信息，快路径以高帧速率和较高的时间分辨率以及更窄的信道来捕获快速变换的运动信息。两条路径通过横向连接融合为SlowFast网络，结构如图所示。
图1：SlowFast网络结构示意图
1.慢路径
可以是任何卷积模型基准，以时空卷的形式在视频片段上工作。其关键（低帧速率）是在输入帧上有一个长时间步长τ，即每τ帧中只处理一帧。将慢路径采样的帧数表示的T，原始剪辑片段长度为T×τ帧（一个典型值为τ=16）。

2.快路径
快路径是一个与慢路径性质不同的卷积模型。其特点主要一下三方面：
高帧速率：相比于慢路径的帧速率比率为α（α>1），工作在小时间跨度τ/α上，一个典型的比率设置为α=8，快路径每次采样αT帧。
高时间分辨率特征：整个快路径中除了分类前的全局池化层没有采用时间下采样层（Downsampling layer），即快路径中的特征张量总是沿着时间维度有αT帧，尽可能保持时间保真度。
低信道容量：快路径网络是一个类似于慢路径的卷积网络，但在信道容量上有一个比例β（β<1，一个典型设置为1/8），其信道容量为慢路径信道容量C的β倍，即Cβ。这个设置使得整个SlowFast网络中快路径的计算量占总计算量的约20%，与灵长类视觉神经中M细胞占15-20%这一研究事实所对应。而低信道容量更可以解释为对空间语义的表示能力更弱，也就是说，快路径更加关注时间建模能力。

3.横向连接
在每个“阶段”中，在两条路径之间附加一个横向连接（如上图所示），在实验中采用单向连接，将快路径的特征融合到慢路径中（双向连接结果相似），并匹配两条路径不同的时间维度。最后，对每个路径的输出执行全局平均池，然后将两个汇集的特征向量输入到完全连接的分类层。
作者试验了三种从快路径向慢路径融合的连接方式：
在这里插入图片描述
最后横向连接的输出通过求和或级联的方式接入慢路径。

三、在Kinetics-400上的动作分类实验
1.关于是否预训练
下表展示了使用3D ResNet-50基线架构，是否进行ImageNet预训练的比较。
可以看出：①采用文章中的训练方法（从零开始训练的大规模SGD方法）与[56]中采用ImageNet预训练的方法取得了差不多后的效果；②采用[56]（Non-local neural networks）中的训练方法，但不经过ImageNet预训练，反而导致网络性能下降，说明了[56]中的方法并没有很好地适应从头开始的直接训练。
在这里插入图片描述

2.快路径对仅慢路径网络性能的改善
下图展示了Slow模型和SlowFast模型各种实例的精度和复杂度的权衡。在慢路径中加倍帧的数目以双倍的计算成本（水平轴）增加性能（垂直轴），而SlowFast显著地以较小的计算成本增加所有变体的性。也就是说，添加快路径以增加较少的计算成本而提升了更多的性能。在SlowFast各种变体与其对应的仅慢路径模型进行比较，也证明了这一事实，同等基线慢路径网络下，添加快路径均提升了模型的性能。
在这里插入图片描述
3.SlowFast横向连接融合
下表比较了SlowFast网络不同融合方式以及单路径网络的性能和计算复杂度比较。
可以看出：①不采用任何横向连接方式，仅叠加两条路径最终输出，其性能较仅慢路径网络也提升了0.9%；②采用Time-strided-convolution横向连接方式性能最优，较仅慢路径网络提升了3%；③仅快路径网络的准确率只有51.7%，但其对仅慢路径的性能改进高达3%，说明快路径建模的底层表示在很大程度上和慢路径互补。
在这里插入图片描述
4.快路径的信道容量比
下表展示了采用不同的快路径信道容量比β对SlowFast模型性能的影响。
可以看出：①性能最好的β值是1/6或1/8；②β值从1/32到1/4均对仅Slow网络有改善；③β越小，SlowFast模型相对Slow模型增加的GFLOPs越小。
在这里插入图片描述
5.快路径更弱的空间输入
下表展示了弱化快路径空间输入对SlowFast模型性能的影响（β=1/8除非另有指定）。
可以看出：①减半输入帧空间分辨率（112×112）同时加倍β为1/4以保持大致的GFLOPs值，其最终性能有所下降；②所有变体性能均比仅Slow网络性能好；③灰度输入性能几乎与RGB输入性能一样好，但相对减少了5%的GLOPs，且符合了M细胞对颜色不敏感这一事实。
在这里插入图片描述

pissjello

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
SlowFast网络阅读笔记

一、原文原文：SlowFast Networks for Video Recognition作者：Christoph Feichtenhofer，Haoqi Fan，Jitendra Malik，Kaiming He单位：Facebook AI Research (FAIR)二、提出背景在图像识别领域中，通常自然地认为两个空间维度是各向同性的，而在视频领域中的三维信号，所有时空方向的不一...
复制链接

扫一扫

专栏目录