SlowFast Networks for Video Recognition

最新推荐文章于 2024-04-25 16:19:33 发布

LMW4444

最新推荐文章于 2024-04-25 16:19:33 发布

阅读量96

点赞数

分类专栏：行为识别

本文链接：https://blog.csdn.net/weixin_42550076/article/details/117568909

版权

行为识别专栏收录该内容

14 篇文章 4 订阅

订阅专栏

论文笔记（6）

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

主要贡献

提出了SlowFast Networks。该网络包括一个慢路径（运行在低帧率，以捕获空间语义），一个快速路径（运行在高帧率，以捕获精细的时间分辨率运动）。

SlowFast Networks

在这里插入图片描述
Slow-pathway中的tensor维数可表示为（N,C,T,H,W）,Fast-pathway中的tensor维数可表示为（N,βC,αT,H,W)。论文中默认设置T=4，τ=16，α=8，β=1/8。

为了保证数据维数的匹配问题，提出了以下的融合策略：
(1)Time-to-channel:我们重塑和转置{αT, $S^2$ , βC}转换为{T, $S^2$ , αβC}，意味着我们将所有帧打包到一个帧的通道中;
(2)Time-strided sampling:我们简单地每α帧采样一帧,{αT, $S^2$ , βC}转换为{T, $S^2$ , βC};
(3)Time-strided convolution:使用kernel=(5×1×1)，stride=(α×1×1)，输出通道数为2βC的3D卷积,将Fast支路的特征维数由（βC,αT,H,W）变成（2βC,T,H,W）,然后进行concatenation。
在这里插入图片描述

实验

Comparison with the state-of-the-art on Kinetics-400
在这里插入图片描述
在SlowFast(绿色)和Slow-only(蓝色)架构上的精度/复杂性权衡

Comparison with the state-of-the-art on Kinetics-600

Comparison with the state-of-the-art on Charades

消融实验

Comparison with the state-of-the-art on AVA v2.1
在这里插入图片描述
SlowFast models on AVA v2.2

LMW4444

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SlowFast Networks for Video Recognition

论文笔记（6）SlowFast Networks for Video RecognitionSlowFast Networks for Video Recognition
复制链接

扫一扫