《SlowFast Networks for Video Recognition》---论文总结

参考:https://zhuanlan.zhihu.com/p/103577209
论文下载:https://arxiv.org/pdf/1812.03982.pdf
时间:2019.10.29

作者团队:FAIR(何恺明…)ICCV2019,2019 年 CVPR ActivityNet Challenge Winner

分类:计算机视觉–视频行为识别–两分路C3D

项目:
PySlowFast https://github.com/facebookresearch/SlowFast

参考:

本文目录:
一.论文翻译

二.论文总结

三.论文创新

四.代码实践

一.论文翻译

Abstract:

我们提出了SlowFast网络用于视频识别,我们的模型包含两部分

(1)一个低帧率运行的Slow pathway,用来捕获空间语义信息。

(2)一个高帧率运行的Fast pathway,以精细的时间分辨率捕获运动信息。

通过减少通道容量把Fast pathway设计的非常轻量级,但可以学习到有用的时域信息用于视频识别。我们的模型在视频action classification和detection上都取得了strong表现,且我们的SlowFast概念明确指出了重大改进之处。我们的模型在主要的视频识别benchmarks(包括Kinetics, Charades和AVA)上都取去了SOTA精度。代码开源~

1.Introduction

在识别图像I(x,y)的时候通常会对称地symmetrically处理两个空间维度x和y, 自然图像的统计分析能够验证这种操作的合理性:自然图像的统计量是近似于一阶同向性的,即所有方向都是同等可能且位移不变的[41,26]。但是对于视频信号I(x,y,t)呢?运动是方向的时空对应counterpart[2],但是并非所有的时空方向都是一样的。慢速运动比快速运动更有可能发生(实际上大多数情况下我们看到的世界都在特定的时刻处于静止状态)且这一点已经在贝叶斯方法中得到了应用:人们如何看待运动刺激[58]。例如,如果我们看到一个孤立的运动边(moving edge),我们会认为perceive它是垂直于自身移动的,即使原则上它也可以具有与自身相切的任意运动分量(光流中的孔径问题the aperture problem in optical flow)。如果实现知道更喜欢慢速运动,那这种感觉是合理的。

如果所有的时空方向都不一样,那么我们就没有理由对称地处理时间和空间(而这正是基于时空卷积的视频识别方法[49,5]所默认的)。相反,我们可以分解factor结构,分别处理空间结构和时间事件events,更具体地,让我们在识别场景下来研究。视觉内容的类别空间语义通常都进展的很缓慢evolve slowly。例如,挥手的时候手还是手,identity不会变化;即使一个人从walking动作变为running动作,人的类别也永远是“人”。所以可以相对缓慢地更新refresh类别语义识别结果(以及颜色,纹理,亮度等)。另一方面,所进行的运动motion可能比其所属的主体身份的变化要快的多,例如拍手、挥手、握手、步行或者跳跃。所以可能要使用快速更新帧(高的时间分辨率)来有效地建模可能快速变化的运动情况。
在这里插入图片描述
基于这个直觉,我们提出了一种用于视频识别的two-pathway SlowFast模型(图1)。一个分支用来捕获图像或稀疏帧所提供的语义信息,它以较低的帧率和较慢的刷新速度运行;另一个分支负责快速捕获运动的变化,它以较快的更新速度和高时间分辨率运行,尽管它的时间分辨率很高,但这个分支仍然非常轻量级,大约占整个计算量的20% .这是因为这个分支具有较少的通道数和较弱的空间信息处理能力,而这些信息可以由第一个分支以较少的冗余来提供。我们把第一个分支和第二个分支分别称为Slow Pathway和 Fast pathway,然后这两个分支通过侧向连接lateral connections进行融合。

我们的概念idea使我们的视频模型设计变得灵活有效,由于Fast pathway轻量级的特性,它不需要执行任何的时间池化,它可以高帧率地执行所有中间层并维持时间保真度temporal fidelity;同时,由于Slow pathway的时间速度较低,它可以更加专注于空间域信息和语义信息。通过以不同的时间速率temporal rates处理原始视频,我们的方法允许这两个分支有它们自己的视频建模知识。

还有另一种众所周知的视频识别结构two-stream设计[44],但这和我们的结构在概念上是不同的:

(1)Two-Stre

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值