《SlowFast Networks for Video Recognition》---论文总结

最新推荐文章于 2024-04-25 16:19:33 发布

alicecv

最新推荐文章于 2024-04-25 16:19:33 发布

阅读量2.1k

点赞数

分类专栏：行为识别文章标签：卷积

本文链接：https://blog.csdn.net/binger520886/article/details/108044731

版权

参考：https://zhuanlan.zhihu.com/p/103577209
论文下载：https://arxiv.org/pdf/1812.03982.pdf
时间：2019.10.29

作者团队：FAIR（何恺明…）ICCV2019，2019 年 CVPR ActivityNet Challenge Winner

分类：计算机视觉–视频行为识别–两分路C3D

项目：
PySlowFast https://github.com/facebookresearch/SlowFast

参考：

本文目录：
一.论文翻译

二.论文总结

三.论文创新

四.代码实践

一.论文翻译

Abstract：

我们提出了SlowFast网络用于视频识别，我们的模型包含两部分

（1）一个低帧率运行的Slow pathway，用来捕获空间语义信息。

（2）一个高帧率运行的Fast pathway，以精细的时间分辨率捕获运动信息。

通过减少通道容量把Fast pathway设计的非常轻量级，但可以学习到有用的时域信息用于视频识别。我们的模型在视频action classification和detection上都取得了strong表现，且我们的SlowFast概念明确指出了重大改进之处。我们的模型在主要的视频识别benchmarks（包括Kinetics， Charades和AVA）上都取去了SOTA精度。代码开源~

1.Introduction

在识别图像I(x,y)的时候通常会对称地symmetrically处理两个空间维度x和y，自然图像的统计分析能够验证这种操作的合理性：自然图像的统计量是近似于一阶同向性的，即所有方向都是同等可能且位移不变的[41,26]。但是对于视频信号I(x,y,t)呢？运动是方向的时空对应counterpart[2]，但是并非所有的时空方向都是一样的。慢速运动比快速运动更有可能发生（实际上大多数情况下我们看到的世界都在特定的时刻处于静止状态）且这一点已经在贝叶斯方法中得到了应用：人们如何看待运动刺激[58]。例如，如果我们看到一个孤立的运动边（moving edge），我们会认为perceive它是垂直于自身移动的，即使原则上它也可以具有与自身相切的任意运动分量（光流中的孔径问题the aperture problem in optical flow）。如果实现知道更喜欢慢速运动，那这种感觉是合理的。

如果所有的时空方向都不一样，那么我们就没有理由对称地处理时间和空间（而这正是基于时空卷积的视频识别方法[49,5]所默认的）。相反，我们可以分解factor结构，分别处理空间结构和时间事件events，更具体地，让我们在识别场景下来研究。视觉内容的类别空间语义通常都进展的很缓慢evolve slowly。例如，挥手的时候手还是手，identity不会变化；即使一个人从walking动作变为running动作，人的类别也永远是“人”。所以可以相对缓慢地更新refresh类别语义识别结果（以及颜色，纹理，亮度等）。另一方面，所进行的运动motion可能比其所属的主体身份的变化要快的多，例如拍手、挥手、握手、步行或者跳跃。所以可能要使用快速更新帧（高的时间分辨率）来有效地建模可能快速变化的运动情况。
在这里插入图片描述
基于这个直觉，我们提出了一种用于视频识别的two-pathway SlowFast模型（图1）。一个分支用来捕获图像或稀疏帧所提供的语义信息，它以较低的帧率和较慢的刷新速度运行；另一个分支负责快速捕获运动的变化，它以较快的更新速度和高时间分辨率运行，尽管它的时间分辨率很高，但这个分支仍然非常轻量级，大约占整个计算量的20% .这是因为这个分支具有较少的通道数和较弱的空间信息处理能力，而这些信息可以由第一个分支以较少的冗余来提供。我们把第一个分支和第二个分支分别称为Slow Pathway和 Fast pathway，然后这两个分支通过侧向连接lateral connections进行融合。

我们的概念idea使我们的视频模型设计变得灵活有效，由于Fast pathway轻量级的特性，它不需要执行任何的时间池化，它可以高帧率地执行所有中间层并维持时间保真度temporal fidelity；同时，由于Slow pathway的时间速度较低，它可以更加专注于空间域信息和语义信息。通过以不同的时间速率temporal rates处理原始视频，我们的方法允许这两个分支有它们自己的视频建模知识。

还有另一种众所周知的视频识别结构two-stream设计[44]，但这和我们的结构在概念上是不同的：

（1）Two-Stre

最低0.47元/天解锁文章

alicecv

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
《SlowFast Networks for Video Recognition》---论文总结

论文下载：https://arxiv.org/pdf/1812.03982.pdf时间：2019.10.29作者团队：FAIR（何恺明…）ICCV2019，2019 年 CVPR ActivityNet Challenge Winner分类：计算机视觉–视频行为识别–两分路C3D项目：PySlowFast https://github.com/facebookresearch/SlowFast参考：本文目录：一.论文翻译二.论文总结三.论文创新四.代码实践一.论文翻译Abstrac
复制链接

扫一扫