Learning Spatiotemporal Features with 3D Convolutional Networks

Abstract

  • 我们提出了一种简单而有效的时空特征学习方法,使用在大规模有监督视频数据集上训练的深三维卷积网络。我们的发现有三个方面:1)与二维变换相比,三维变换更适合时空特征学习;(2)3×3×3卷积核较小的同构结构是三维转换网络性能最好的结构之一;3)我们学习的特性,即c3d(卷积3d),具有简单的线性分类,在4个不同基准上优于最新方法,并且与其他2个基准上的当前最佳方法具有可比性。此外,其特点是简洁:在只有10维的UCF101数据集上达到52.8%的精度,而且由于ConvNets的快速推理,计算效率非常高。最后,它们在概念上非常简单,易于训练和使用。

Introduction

  • 互联网上的多媒体正在迅速增长,导致每分钟共享的视频数量不断增加。为了应对信息爆炸,必须理解和分析这些视频的各种用途,如搜索,推荐,排名等。计算机视觉界几十年来一直致力于视频分析,并解决了不同的问题,如动作识别[26]、异常事件检测[2]和活动理解[23]。通过采用不同的具体解决方案,在这些个别问题上取得了相当大的进展。然而,人们仍然越来越需要一个通用的视频描述符,它有助于以一种同质的方式解决大规模的视频任务。
  • 有效的视频描述符有四个属性:(i)它需要一个简洁的,所以它可以很好地代表不同类型的视频,同时具有辨别力。例如,网络视频可以是风景、自然、体育、电视节目、电影、宠物、食物等;(ii)描述符需要紧凑:当我们处理数百万个视频时,紧凑的描述符有助于处理、存储和检索更具伸缩性的任务。(iii)它需要高效的计算,因为在现实世界系统中,每分钟都要处理数千个视频;(iv)实施必须简单。一个好的描述符不应该使用复杂的特征编码方法和分类,即使是简单的模型也应该能很好地工作。
  • 受过去几年在特征学习方面取得迅速进展的图像领域[24]的深入学习突破的启发,各种预训练卷积网络(convnet)模型可用于提取图像特征。这些特征是网络最后几个完全连接层的激活,这些层在转移学习任务中表现良好[47,48]。然而,由于缺乏运动建模,这种基于图像的深层特征并不直接适用于视频。本文提出利用deep 3D转换网络学习时空特征。我们的经验表明,这些学习特征与简单的线性分类可以产生良好的性能在各种视频分析任务。尽管3d convnets在[15,18]之前就已经提出,但据我们所知,这项工作在大规模有监督训练数据集和现代深层架构的背景下利用3d convnets来实现不同类型视频分析任务的最佳性能。这些3d convnets的功能将与视频中的对象、场景和动作相关的信息封装起来,使它们在各种任务中都很有用,而无需为每个任务调整模型。c3d具有良好的描述符应该具备的特性:通用性、紧凑性、简单性和高效性。总之,我们在本文中的贡献是:
  1. 实验表明,三维卷积深网络是一种能同时模拟物体外观和运动的特征学习机器。
  2. 我们通过实验发现,3×3×3卷积核对于所有层来说都是在有限的探索体系结构中最有效的。
  3. 在4个不同的任务和6个不同的基准上,用一个简单的线性模型提出的特征优于或接近当前的最佳方法(见表1)。它们也很紧凑,计算效率也很高。

Related Work

  • 视频已经被计算机视觉界研究了几十年。多年来,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值