论文笔记SlowFast Networks for Video Recognition

1. 标题及来源

SlowFast Networks for Video Recognition, ICCV, 2019.
论文下载链接:https://arxiv.org/pdf/1812.03982.pdf

2. 拟解决的问题

之前方法中平等对待语义信息和时序信息

3. 解决方法

通过研究人的视网膜神经细胞组成时发现,其中有80%左右的细胞用来获取语义信息,例如外观,颜色,纹理等;约15%-20%的细胞用来获取时序信息,它们的研究小组根据这一发现提出空域特征和时域特征不能平等对待。

3.1 算法流程

在这里插入图片描述
该算法网络结构如上图所示。该算法由两个分支组成,上面一个分支称为slow分支,具有更多的channel,更少的T(帧),该分支主要用来提取空域特征;下面一个分支称为fast分支,具有更少的channel(slow分支中channel数的1/8),更多的T(帧, slow分支中T数的8倍),该分支主要用来提取时序信息。该算法的backbone是3D ResNet,具体网络层如下所示。
在这里插入图片描述
该算法流程如下:
a. 从原始视频中随机采集 α T × τ \alpha T \times \tau αT×τ帧,其中 α \alpha α是一个比例系数,用来控制slow分支和fast分支所使用帧数的比例,原文中取8;T表示slow分支中所使用的总帧数,原文中取4; τ \tau τ表示采样间隔,原文中取2。通过这种方式共采样64帧
b. 以低帧率采样(间隔 α × τ \alpha \times \tau α×τ)方式从采样的视频中采集4帧送入slow分支,提取空域特征;以高帧率采样(间隔 τ \tau τ)方式从采样的64帧图片中采集32帧输入fast分支,提取时序特征
c. 将fast分支中提取的时序特征( p o o l 1 , r e s 2 , r e s 3 , r e s 4 pool_1, res_2, res_3, res_4 pool1,res2,res3,res4)通过横向连接(lateral connections)与空域特征融合
d. 最后通过FC分类,给出预测的行为
横向连接可以通过reshape方式(T-sample)或者每 α \alpha α帧采集一帧特征(TtoC)或者通过3D卷积方式(T-conv)使其能与slow分支的T轴对应,然后通过Concat或者sum即可融合时序特征

4. 实验结果

4.1 kinetics-400

在这里插入图片描述

4.2 kinetics-600

在这里插入图片描述

4.3 Charades

在这里插入图片描述
NL表示non local

4.4 消融实验

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4.5 AVA Action Detection

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 可借鉴点

时序信息和空域信息不能平等对待

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值