ECO: Efficient Convlutional Network for Online Video Understanding这篇论文发表于2018年ECCV上。作者Mohammadreza Zolfaghari等人来自弗莱堡大学。这篇论文主要内容如下:
当前最先进的视频理解模型主要存在两个问题:1. 模型在做任务推理时只关注视频局部信息,忽略了横跨一定时间间隔的动作联系;2. 已有模型只在视频局部处理进行效率改进,但是视频整体的处理效率较低,无法用于快速的视频检索或者在线长期动作分类。这篇论文针对这两个问题,提出了高效的卷积网络用于视频分类和实时视频分类算法。模型结构本身整合了视频的长期信息,并利用了相邻帧存在大量冗余信息这一特点。它最快能在一秒时间内进行230段视频的动作分类和描述。这种方法在所有的数据集上取得了和当前最好模型相当的效果,同时在速度上快了10到80倍。
视频动作分类领域主要有三个数据集:Kinetics、ActivityNet和SomethingSomething。
模型宏观架构
由于相邻帧存在大量的信息冗余,因此该方法利用预训练好的2D卷积网络每隔一定时间只处理一帧视频。为了让卷积网络自身就能学习到长期的语义信息,作者采用3D卷积层来对按一定时间间隔提取出来的帧的集合进行特征提取。在具体训练模型时,视频被分成N小段,每小段时间长度相等。每次用某段视频进行训练时,在每个时间段内随机采样一帧视频,输入卷积网络。就长时间训练而言,视频中的每一帧都得到了充分的利用。这样训练数据更加多样