百度飞浆定会论文复现之视频分类:ECO: Efficient Convolutional Network for Online Video Understanding
论文创新点:
本文考虑了视频分类中相邻帧之间的信息冗余,也考虑到较远帧之间的信息的相关性的情况下。本文采取与以前的方法不同,主要有三个方面:
(1) 与TSN类似,本文从整个视频中抽取固定数量的帧来覆盖长范围时间结构(long-range temporal structure)建模,以便理解视频。这样,采样帧跨越整个视频,而与视频的长度无关。
(2) 与TSN不同,本文使用3D网络来学习帧之间的关系,并在整个视频中追踪它们。网络通过端到端的训练来学习这种关系。
(3) 该网络直接提供视频级别的分数,而无需进行事后特征聚合。因此,它可以在线运行,甚至可以在小型计算设备上实时运行。
模型描述:
ECO网络具体结构:
输入的视频被分成N个RGB 的 segment,分别为子部分Si,i = 1,…,N,它们具有相同的大小,并且在每个子部分中随机采样一帧。这些帧中的每一帧都由单个2D卷积网络(权重