《SlowFast Networks for Video Recognition》论文详解

论文地址:https://arxiv.org/abs/1812.03982
代码地址:https://github.com/facebookresearch/SlowFast

该篇文章有Facebook提出,作者之一为何凯明,文章发表在ICCV2019,文章可以看出是一个特殊的双流法网络,不同于以前的双流法使用图像模态和光流模态(或者其他能代替光流的模态)作为输入,slowfast网络只使用图像模态作为输入。文章启发于生物学中的视觉系统。研究表明视网膜神经节细胞中有约80%的P-cells(Parvocellular)和有约20%的M-cells(Magnocellular),其中M细胞处理高时序频率的信息,P细胞处理空间结构和颜色信息处理的是低频信息。

一、网络结构

同命名可以看出网络有两路,一路是slowpath,一路是fastpath。其中slowpath模拟的是P细胞,主要用于提取空间信息,所以该网络模型参数量较大。而fastpath模拟的是M细胞,主要用于提取快速的时间维度信息,类似与M细胞,该网络较slowpath轻量很多。slowfast网络结构如下图所示:
在这里插入图片描述
在这里插入图片描述

slowpath和fastpath的区别不仅仅在于参数量不同,还有一方面是slowpath的输入会比fastpath输入维度要低(因为fast要更多的获取时序信息,所以fast的时间维度输入要大于slow输入的时间维度)。所以在slowfast网络里面有三个超参需要自定义,三个超参分别命名为 α , β , τ \alpha, \beta, \tau α,β,τ,下面分别介绍三个超参的含义。

1.1 τ \tau τ参数

因为网络处理的是视频帧序列,对于一个给定的视频来说,要对该视频输入到网络进行训练,首先需要进行抽帧处理(抽帧也有各种策略,这里不详细介绍,暂且认为每个视频通过某种方式抽取出固定的 T × τ T\times \tau T×τ帧来作为网络的训练输入)。记住抽完帧后获取到的帧数为 T × τ T\times \tau T×τ。那输入的slow-path网络的帧数固定为T,那么就需要从 T × τ T\times \tau T×τ帧按照线性采样,抽取出T帧作为slow-path的输入。所以参数 τ \tau τ是用来从抽好帧的源中再抽取 1 / τ 1/\tau 1/τ帧来作为slow-path的输入,也就是 τ \tau τ直接控制输入slow-path的帧数。

1.2 α \alpha α参数

之前提到了fast网络不仅参数量比slow网络少,输入也比slow网络少,假设slow-path输入的帧数为T帧,那么fast网络输入帧数为 T × α T\times \alpha T×α帧。即 α \alpha α用来控制slow-path和fast-path输入帧数的倍数关系。

1.3 β \beta β参数

β \beta β就是用来控制fast网络的基础通道数比slow网络少多少。

举个具体的例子,假设现在有一个视频,总共有200帧图像,通过抽帧抽取了64帧, τ = 16 \tau=16 τ=16那么输入到slow-path的帧为 64 / τ = 4 64/\tau=4 64/τ=4帧, α = 8 \alpha=8 α=8那么fast-path就需要输入 64 / ( τ / α ) = 32 64/(\tau/\alpha)=32 64/(τ/α)=32帧图像。如果slow网络(resnet加入3D卷积的版本)的通道数为64的倍数,64我们称为通道数基数,当 β = 8 \beta=8 β=8时,fast网络的通道数基数就为 64 / β = 8 64/\beta=8 64/β=8

slowfast网络的核心基本原理就解释完了,具体实验参数和实验结果可以参考论文以及官方代码。

视频算法交流qq群:657626967

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值