FASTER Recurrent Networks for Efficient Video Classification论文笔记

通常可以从两个方面减少视频分类任务的时间,一是通过减少网络结构计算量,二是通过减少推理时如何结合每个clip通过网络得到预测;本文使用第二种方法

为了减少推理时的计算量,根据本身一个常规的clip特征提取网络(会比较重量级,用于提取动作细节),再设计一个对应的轻量级的clip特征提取网络(用于提取背景变化),还有一个用来以推理时视频里的每个clip经过不同网络后的特征作为输入的RNN来对于视频进行最终的分类预测结果输出(用于学习不同网络最终输出特征之间的时间结构);

与LRCN的比较:网络结构上类似于CNN+RNN构成的LRCN,只不过现在的CNN用于提取clip特征,LRCN的CNN提取的为每个frame的特征

在这里插入图片描述
视频分类网络研究:1.3D卷积变换 2.在3D卷积上做修饰(为了学习全局信息) 3.多流模型(RGB,flow,etc.)

结合CNN产生的特征的方法
FAST-GRU与GRU:GRU的hidden unit(activation or state)通常为一维向量,FAST-GRU允许shape为(l,h,w,c)的特征为hidden unit,从而能够更好的对CNN的输出进行建模(比GRU多包涵了时间空间信息);FAST-GRU将GRU中的权重与特征相乘改成了对特征进行1x1x1的卷积(允许feature gating,相当于多了个attention);FAST-GRU在read gate和update gate的计算中在concat之后多加了个1x1x1卷积用于减少参数,增加非线性(思想与bottleneck类似),再通过一个1x1x1卷积恢复到原来的channel,后面再跟一个RELU(1x1x1卷积也相当于允许更多的feature gating)
在这里插入图片描述
其他还包括上图中的concat,LSTM,GRU,以及一些相关的变体

用于提取clip特征的clip-level的网络结构(expensive and lightweight)
在这里插入图片描述
采用bottleneck,R2D在conv1的temporal stride为8,后面的卷积操作的temporal stride均为1,相当于2D卷积

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值