百度顶会论文复现营,精选热门领域顶会论文,顶级教师团队手把手教学,帮你夯实理论基础,提升深度学习实践能力。
相关介绍
Temporal Segment Network (TSN) 是视频分类领域经典的基于2D-CNN的解决方案。该方法主要解决视频的长时间行为判断问题,通过稀疏采样视频帧的方式代替稠密采样,既能捕获视频全局信息,也能去除冗余,降低计算量。最终将每帧特征平均融合后得到视频的整体特征,并用于分类。本代码实现的模型为基于单路RGB图像的TSN网络结构,Backbone采用ResNet-50结构。详细内容请参考:
Temporal Segment Networks for Action Recognition in Videos
- 输入视频划分成k个片段,每个片段随机取一帧
- 两个卷积网络分别提取空间和时序特征(RGB图像和光流图像)
- 通过片段共识函数,分别融合两个不同分支不同片段结果
- 两类共识再次融合
论文方法
- TSN预测的主要部分是在单帧图像中进行的,从而错过了跨越几秒钟的动作中的重要关系。
- TSN采用逐帧处理的方法,会导致整个视频的处理效率不高 ,无法满足快速视频检索和在线视频分类对速度的需求。
- 相邻帧之间的很多信息都是冗余的,ECO将视频等分后,在一个时序邻域内仅使用一个单帧图像
- ECO对较远帧之间的feature map 以 3D 卷积的方式进行 end-2-end的融合。
实验结果
很明显可以看到,ECO网络以较快的速度,实现了较高的精度
论文详见:ECO: Efficient Convolutional Network for Online Video Understanding