Learning Spatiotemporal Features with 3D Convolutional Networks

最新推荐文章于 2020-05-11 15:31:04 发布

铿锵的玫瑰

最新推荐文章于 2020-05-11 15:31:04 发布

阅读量1.5k

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/100891188

版权

Abstract

我们提出了一种简单而有效的时空特征学习方法，使用在大规模有监督视频数据集上训练的深三维卷积网络。我们的发现有三个方面：1）与二维变换相比，三维变换更适合时空特征学习；（2）3×3×3卷积核较小的同构结构是三维转换网络性能最好的结构之一；3）我们学习的特性，即c3d（卷积3d），具有简单的线性分类，在4个不同基准上优于最新方法，并且与其他2个基准上的当前最佳方法具有可比性。此外，其特点是简洁：在只有10维的UCF101数据集上达到52.8%的精度，而且由于ConvNets的快速推理，计算效率非常高。最后，它们在概念上非常简单，易于训练和使用。

Introduction

互联网上的多媒体正在迅速增长，导致每分钟共享的视频数量不断增加。为了应对信息爆炸，必须理解和分析这些视频的各种用途，如搜索，推荐，排名等。计算机视觉界几十年来一直致力于视频分析，并解决了不同的问题，如动作识别[26]、异常事件检测[2]和活动理解[23]。通过采用不同的具体解决方案，在这些个别问题上取得了相当大的进展。然而，人们仍然越来越需要一个通用的视频描述符，它有助于以一种同质的方式解决大规模的视频任务。
有效的视频描述符有四个属性：（i）它需要一个简洁的，所以它可以很好地代表不同类型的视频，同时具有辨别力。例如，网络视频可以是风景、自然、体育、电视节目、电影、宠物、食物等；（ii）描述符需要紧凑：当我们处理数百万个视频时，紧凑的描述符有助于处理、存储和检索更具伸缩性的任务。（iii）它需要高效的计算，因为在现实世界系统中，每分钟都要处理数千个视频；（iv）实施必须简单。一个好的描述符不应该使用复杂的特征编码方法和分类，即使是简单的模型也应该能很好地工作。
受过去几年在特征学习方面取得迅速进展的图像领域[24]的深入学习突破的启发，各种预训练卷积网络（convnet）模型可用于提取图像特征。这些特征是网络最后几个完全连接层的激活，这些层在转移学习任务中表现良好[47，48]。然而，由于缺乏运动建模，这种基于图像的深层特征并不直接适用于视频。本文提出利用deep 3D转换网络学习时空特征。我们的经验表明，这些学习特征与简单的线性分类可以产生良好的性能在各种视频分析任务。尽管3d convnets在[15,18]之前就已经提出，但据我们所知，这项工作在大规模有监督训练数据集和现代深层架构的背景下利用3d convnets来实现不同类型视频分析任务的最佳性能。这些3d convnets的功能将与视频中的对象、场景和动作相关的信息封装起来，使它们在各种任务中都很有用，而无需为每个任务调整模型。c3d具有良好的描述符应该具备的特性：通用性、紧凑性、简单性和高效性。总之，我们在本文中的贡献是：