通常可以从两个方面减少视频分类任务的时间,一是通过减少网络结构计算量,二是通过减少推理时如何结合每个clip通过网络得到预测;本文使用第二种方法
为了减少推理时的计算量,根据本身一个常规的clip特征提取网络(会比较重量级,用于提取动作细节),再设计一个对应的轻量级的clip特征提取网络(用于提取背景变化),还有一个用来以推理时视频里的每个clip经过不同网络后的特征作为输入的RNN来对于视频进行最终的分类预测结果输出(用于学习不同网络最终输出特征之间的时间结构);
与LRCN的比较:网络结构上类似于CNN+RNN构成的LRCN,只不过现在的CNN用于提取clip特征,LRCN的CNN提取的为每个frame的特征
视频分类网络研究:1.3D卷积变换 2.在3D卷积上做修饰(为了学习全局信息) 3.多流模型(RGB,flow,etc.)
结合CNN产生的特征的方法:
FAST-GRU与GRU:GRU的hidden unit(activation or state)通常为一维向量,FAST-GRU允许shape为(l,h,w,c)的特征为hidden unit,从而能够更好的对CNN的输出进行建模(比GRU多包涵了时间空间信息);FAST-GRU将GRU中的权重与特征相乘改成了对特征进行1x1x1的卷积(允许feature gating,相当于多了个attention);FAST-GRU在read gate和update gate的计算中在concat之后多加了个1x1x1卷积用于减少参数,增加非线性(思想与bottleneck类似),再通过一个1x1x1卷积恢复到原来的channel,后面再跟一个RELU(1x1x1卷积也相当于允许更多的feature gating)
其他还包括上图中的concat,LSTM,GRU,以及一些相关的变体
用于提取clip特征的clip-level的网络结构(expensive and lightweight)
采用bottleneck,R2D在conv1的temporal stride为8,后面的卷积操作的temporal stride均为1,相当于2D卷积