Large-scale Video Classification with Convolution Neural Networks

Large-scale Video Classification with Convolution Neural Networks

摘要:卷积神经网络(CNNs)在图像识别问题中已经被当做一个有力的模型被建立起来。受这些成果的影响,我们在大规模的视频分类数据集上准备了大量的对于CNNs经验的评价,我们用了一个新的数据集,它包括一百万个YouTube视频,属于487个不同的类别。为了扩展CNN的在时间域的连通性,我们研究很多种方法,为了利用局部时空信息和多分辨率,有凹的结构作为一个有希望的方法来加速训练。我们最好的时空网络跟基于特征的方法比较来看,表现出了很好的性能(55.3% VS 63.9%),但是相比于单帧模型,只有一点点的提升(59.3% VS 60.9%)。我们更加深入的研究了我们最好的模型的泛化性能,通过在UCF101动作识别数据集上对顶层进行再训练,观察到相对于基于UCF101数据集的模型有很显著的性能提升(63.3%VS 43.9%)。


1.引言:图像和视频在网络上变得普遍存在了,这就鼓励了大量算法的发展,用来分析这些图片和视频的语义信息。目前,对于理解图片内容来说,卷积神经网络(CNNs)已经被证明是一种有效的模型,在图像识别,分割,检测和检索等方面都取得了最好的效果。在这些结果背后最关键的因素是网络的规模变得越来越大,参数越来越多和大量的有标签的数据集来支持我们的学习过程。在这些条件下,CNNs已经表现出了很强的学习能力和表现图片的特征。在图像领域好的结果的激励下,我们研究了CNNs在大规模视频分类上的性能,我们的网络不仅能够在单一的、静止的图片上表现出很好的性能,而且在复杂的时间域有进展。这里有一些挑战是延伸和应用CNNs在视频数据集上。

从实践的观点来说,现在还没有可以匹配当前图片数据集那样规模和变化多样的标准的视频分类数据集,因为视频更加的难于收集、标注和存储。为了得到足够多的数据来训练我们的CNN结构,我们收集了一个新的Sports-1M数据集,这个数据集由一百万个属于487个不同类别的YouTube视频组成。我们公开了这个数据集,这个领域的研究团体可以用它来支持他们将来的工作。

从模型的角度来说,我们对于回答下面的问题感兴趣:怎样的时间域的连通性可以更好的利用视频中表现出的局部运动信息?增加的运动信息如何影响CNN的预测?这个影响到底有多大的提升?我们通过评价多种不同的CNN结构、每种结构运用不同的方法合并时间域的信息来探究这些问题。</

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值