论文笔记SlowFast Networks for Video Recognition

最新推荐文章于 2024-04-25 16:19:33 发布

YSQ是我的

最新推荐文章于 2024-04-25 16:19:33 发布

阅读量646

点赞数

分类专栏： # 行为识别文章标签：论文笔记行为识别时序信息

本文链接：https://blog.csdn.net/u011609063/article/details/105534609

版权

行为识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

SlowFast Networks for Video Recognition论文笔记

1. 标题及来源
2. 拟解决的问题
3. 解决方法
- 3.1 算法流程
4. 实验结果
5. 可借鉴点

1. 标题及来源

SlowFast Networks for Video Recognition, ICCV, 2019.
论文下载链接：https://arxiv.org/pdf/1812.03982.pdf

2. 拟解决的问题

之前方法中平等对待语义信息和时序信息

3. 解决方法

通过研究人的视网膜神经细胞组成时发现，其中有80%左右的细胞用来获取语义信息，例如外观，颜色，纹理等；约15%-20%的细胞用来获取时序信息，它们的研究小组根据这一发现提出空域特征和时域特征不能平等对待。

3.1 算法流程

在这里插入图片描述
该算法网络结构如上图所示。该算法由两个分支组成，上面一个分支称为slow分支，具有更多的channel，更少的T(帧)，该分支主要用来提取空域特征；下面一个分支称为fast分支，具有更少的channel(slow分支中channel数的1/8)，更多的T(帧, slow分支中T数的8倍)，该分支主要用来提取时序信息。该算法的backbone是3D ResNet，具体网络层如下所示。
在这里插入图片描述
该算法流程如下：
a. 从原始视频中随机采集 $\alpha T \times \tau$ 帧，其中 $\alpha$ 是一个比例系数，用来控制slow分支和fast分支所使用帧数的比例，原文中取8；T表示slow分支中所使用的总帧数，原文中取4； $\tau$ 表示采样间隔，原文中取2。通过这种方式共采样64帧
b. 以低帧率采样(间隔 $\alpha \times \tau$ )方式从采样的视频中采集4帧送入slow分支，提取空域特征；以高帧率采样(间隔 $\tau$ )方式从采样的64帧图片中采集32帧输入fast分支，提取时序特征
c. 将fast分支中提取的时序特征( $pool_1, res_2, res_3, res_4$ )通过横向连接(lateral connections)与空域特征融合
d. 最后通过FC分类，给出预测的行为
横向连接可以通过reshape方式(T-sample)或者每 $\alpha$ 帧采集一帧特征(TtoC)或者通过3D卷积方式(T-conv)使其能与slow分支的T轴对应，然后通过Concat或者sum即可融合时序特征

4. 实验结果

4.1 kinetics-400

在这里插入图片描述

4.2 kinetics-600

在这里插入图片描述

4.3 Charades

在这里插入图片描述
NL表示non local

4.4 消融实验

在这里插入图片描述

4.5 AVA Action Detection

在这里插入图片描述

5. 可借鉴点

时序信息和空域信息不能平等对待

YSQ是我的

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文笔记SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition论文笔记1. 标题及来源2. 拟解决的问题3. 解决方法3.1 算法流程4. 实验结果4.1 kinetics-4004.2 kinetics-6004.3 Charades4.4 消融实验4.5 AVA Action Detection1. 标题及来源SlowFast Networks for Video Reco...
复制链接

扫一扫