SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition [ICCV-2019]

一、背景介绍:

​ 首先作者提出的想法: 我们一般处理2D图像的时候,很自然地会对称的处理两个维度x,y,但如果是加了时间维度的视频呢?运动是方向的时空对应物,但所有时空方向的可能性都不相等 慢动作比快动作更有可能发生,这个有生物学依据:作者提到论文中的方法是受灵长类生物 细胞生物学研究的启发,存在两类细胞,P细胞和M细胞,M细胞在高时间频率下工作,对快速的时间变化做出反应,而P细胞在低时间频率下提供精细的空间细节和颜色。

举例: 例如,在挥舞动作的过程中,挥手不会改变他们的“手”身份,一个人总是属于“人”类别,即使他/她可以从走路过渡到跑步。因此,分类语义的识别(以及它们的颜色、纹理、光照等)可以相对缓慢地刷新。另一方面,被执行的动作可以比他们的主体身份进化得更快,比如拍手、挥手、摇晃、行走或跳跃。可以期望使用快速刷新帧(高时间分辨率)来有效地模拟潜在的快速变化的运动。

如果时间和空间方向上的可能性不同,那么我们就没有理由对称的处理空间和时间维度,基于这种直觉,作者提出了一种用于视频识别的双路径SlowFast模型(图1)。其中一种路径旨在捕捉图像或少量稀疏帧提供的语义信息,其运行速度较低,刷新速度较慢。相比之下,另一种路径负责捕捉快速变化的运动,刷新速度快,时间分辨率高。

这种方法和双流算法的区别在哪里?

1、 双流算法的两个流采用相同的主干结构

2、双流算法需要计算光流信息、论文中提出的网络模型是从原始数据中端到端学习

二、理论方法:

image-20220111150137514

整体网络框架包含了一个低帧率的Slow路径和一个高帧率的Fast路径

τ \tau τ : slow路径采样频率

T T T : slow路径采样的总帧数

α \alpha α :fast路径采样频率为 τ / α \tau/\alpha τ/α

Slow路径:

​ 输入的是低帧率的采样数据,使用一个较大的时序跨度,由参数 τ \tau τ设置

Fast路径:

采样速率为慢路径的 α = 8 \alpha = 8 α=

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值