解决问题:(1)如何设计一个有效和高效的视频级框架,用于学习能够捕捉长期时间结构的视频表示。
(2) 如何在有限的训练样本下学习ConvNet模型。
做了什么事:在时间结构建模方面,关键的观察是连续帧是高度冗余的。因此,通常导致高度相似的采样帧的密集时间采样是不必要的。相反,在这种情况下,稀疏时间采样策略将更有利。受此观察的启发,我们开发了一个视频级框架,称为时间段网络(TSN)。
网络架构:ConvNet
实验数据集:UCF101,HMDB51
Related work
(1)用于动作识别的卷积网络,表示之前的工作是采样帧数太高,计算量大。
(2)时间结构建模。没有端到端的时间关系结构
3.1 Temporal Segment Networks
之前的双流ConvNets这主要是由于它们对时间上下文的访问有限,因为它们被设计为只在单个帧上操作(空间流上)或者或者在一个简短的片段中的单个帧堆栈(时间流上)。
TSN:将一个输入视频分成K个片段,每个片段随机抽取一小段。利用片段一致性函数融合不同片段的分类分数,得到片段一致性,即视频级预测。预测的模式然后融合生成最终的预测。所有代码段上的ConvNets共享参数。