Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
本文延续了双流网络,并考虑到计算花费改善了视频输入形式,提出了新的网络TSN,并且探索了一些实践方法(数据扩充,光流输入其他形式)。虽然文章比较老,但是实验过程以及对数据的处理值得参考。
论文主要贡献:提出了TSN(Temporal Segment Networks),基于长范围时间结构(long-range temporal structure)建模,结合了稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-level supervision)来保证使用整段视频时学习得有效和高效。在TSN的帮助下,研究了一系列关于视频数据学习卷积网络的良好实践数据集表现:HMDB51(69.4%)、UCF101(94.2%)
3 Action Recognition with Temporal Segment Networks
对于以下内容将“片段”代表文章中“snippet”,“段”代表文章中“segment”
3.1 Temporal Segment Networks
之前方法都是对单帧图像处理,忽略了动作上下文信息;而采用多帧光流处理的方法,计算力消耗很大。针对以上问题,文章提出TSN(Temporal Segment Networks)如图1所示对整个视频处理。
该方法利用整个视频的视觉信息进行预测,并采用双流网络。与之前的方法不同,不是采用single frames or frame stacks,TSN的输入是从整个视频稀疏采样得到的一系列小片段。每一个片段都将产生自己的初步预测类别,再将这些片段分类总合为视频预测。在学习过程中,通过迭代更新模型参数,优化视频级预测的损失值,而不是(用于双流