FASTER Recurrent Networks for Efficient Video Classification论文笔记

最新推荐文章于 2022-09-16 16:32:13 发布

ystsaan

最新推荐文章于 2022-09-16 16:32:13 发布

阅读量423

点赞数

分类专栏：视频分类动作识别

本文链接：https://blog.csdn.net/weixin_42388228/article/details/105341235

版权

动作识别同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

视频分类

7 篇文章 1 订阅

订阅专栏

通常可以从两个方面减少视频分类任务的时间，一是通过减少网络结构计算量，二是通过减少推理时如何结合每个clip通过网络得到预测；本文使用第二种方法

为了减少推理时的计算量，根据本身一个常规的clip特征提取网络(会比较重量级，用于提取动作细节)，再设计一个对应的轻量级的clip特征提取网络(用于提取背景变化)，还有一个用来以推理时视频里的每个clip经过不同网络后的特征作为输入的RNN来对于视频进行最终的分类预测结果输出(用于学习不同网络最终输出特征之间的时间结构)；

与LRCN的比较：网络结构上类似于CNN+RNN构成的LRCN，只不过现在的CNN用于提取clip特征，LRCN的CNN提取的为每个frame的特征

在这里插入图片描述
视频分类网络研究：1.3D卷积变换 2.在3D卷积上做修饰(为了学习全局信息) 3.多流模型(RGB,flow,etc.)

结合CNN产生的特征的方法：
FAST-GRU与GRU：GRU的hidden unit(activation or state)通常为一维向量，FAST-GRU允许shape为(l,h,w,c)的特征为hidden unit，从而能够更好的对CNN的输出进行建模(比GRU多包涵了时间空间信息)；FAST-GRU将GRU中的权重与特征相乘改成了对特征进行1x1x1的卷积(允许feature gating，相当于多了个attention)；FAST-GRU在read gate和update gate的计算中在concat之后多加了个1x1x1卷积用于减少参数，增加非线性(思想与bottleneck类似)，再通过一个1x1x1卷积恢复到原来的channel，后面再跟一个RELU(1x1x1卷积也相当于允许更多的feature gating)
在这里插入图片描述
其他还包括上图中的concat,LSTM,GRU,以及一些相关的变体

用于提取clip特征的clip-level的网络结构(expensive and lightweight)
在这里插入图片描述
采用bottleneck，R2D在conv1的temporal stride为8，后面的卷积操作的temporal stride均为1，相当于2D卷积

ystsaan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
FASTER Recurrent Networks for Efficient Video Classification论文笔记

通常可以从两个方面减少视频分类任务的时间，一是通过减少网络结构计算量，二是通过减少推理时如何结合每个clip通过网络得到预测；本文使用第二种方法为了减少推理时的计算量，根据本身一个常规的clip特征提取网络(会比较重量级，用于提取动作细节)，再设计一个对应的轻量级的clip特征提取网络(用于提取背景变化)，还有一个用来以推理时视频里的每个clip经过不同网络后的特征作为输入的RNN来对于视频进行...
复制链接

扫一扫