1. Introduction
图像和视频在互联网上变得无所不在,这鼓励了开发可以分析其语义内容的不同应用程序的算法,包括搜索和摘要。近来,卷积神经网络(CNN)[15]已经被证明是一种有效的模型,用于理解图像内容,为图像识别,分割,检测和检索提供了最先进的结果[11,3,2, 20,9,18]。这些结果背后的关键因素是将网络扩展到数千万个参数和可以支持学习过程的大量标签数据集的技术。在这些条件下,CNN已被证明学习有力而可解释的图像特征[28]。在图像领域的积极成果的鼓舞下,我们研究了大规模视频分类中CNN的性能,网络具有不仅处理存在于单个静态图像中的外观信息,而且其复杂的时间演变。在这种情况下扩展和应用CNN有几个挑战。
从实际的角度来看,目前没有匹配现有图像数据集的规模和多样性的视频分类基准,因为视频显然难以收集,注释和存储。为了获得足够的数据来训练我们的CNN架构,我们收集了一个新的Sports-1M数据集,其中包含一百五十万个YouTube视频,分类为487个运动类别。我们让Sport一1M可用于研究界,以支持今后在这方面的工作。
从实际的角度来看,目前没有匹配现有图像数据集的规模和多样性的视频分类基准,因为视频显然难以收集,注释和存储。为了获得足够的数据来训练我们的CNN架构,我们收集了一个新的Sports-1M数据集,其中包含一百五十万个YouTube视频,分类为487个运动类别。我们让Sport一1M可用于研究界,以支持今后在这方面的工作。
从建模的角度来看,我们有兴趣回答以下问题:CNN架构中的什么时间连接模式最适合利用视频中存在的局部运动信息?附加运动信息如何影响CNN的预测,以及整体性能提高多少?我们通过评估多个CNN架构来经验地检查这些问题,每个CNN架构采用不同的方法来整合整个时间域的信息。
从计算角度来说,CNN需要大量的训练时间来有效地优化参数化模型的数百万个参数。由于网络必须一次处理不是一个图像而是处理多个视频帧,所以在及时扩展架构的连接性时,会更加复杂。为了减轻这个问题,我们表明,加速CNN的运行性能的有效方法是修改架构以包含两个单独的处理流:在低分辨率帧学习特征的context流,和仅在帧的中间部分操作的高分辨率fovea流。由于输入的维度降低,我们观察到网络的运行性能增加了2-4倍,同时保持分类精度。
最后,出现的一个自然而然的问题是,在Sport-1M数据集上
从计算角度来说,CNN需要大量的训练时间来有效地优化参数化模型的数百万个参数。由于网络必须一次处理不是一个图像而是处理多个视频帧,所以在及时扩展架构的连接性时,会更加复杂。为了减轻这个问题,我们表明,加速CNN的运行性能的有效方法是修改架构以包含两个单独的处理流:在低分辨率帧学习特征的context流,和仅在帧的中间部分操作的高分辨率fovea流。由于输入的维度降低,我们观察到网络的运行性能增加了2-4倍,同时保持分类精度。
最后,出现的一个自然而然的问题是,在Sport-1M数据集上