Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Abstract

  • 当前动作分类数据集(UCF-101和HMDB-51)中视频的匮乏,使得很难确定好的视频架构,因为大多数方法在现有的小规模基准测试中都获得了类似的性能。本文根据新的Kinetics Human Action Video数据集重新评估了最先进的体系结构。Kinetics的数据量增加了两个数量级,其中包括400个人类动作课程,每个课程超过400个剪辑,它们是从逼真的,具有挑战性的YouTube视频中收集的。 我们提供了有关当前体系结构如何在此数据集上进行动作分类任务的分析,以及对Kinetics进行预训练后,在较小的基准数据集上可以提高多少性能的分析。
  • 我们还介绍了一种新的基于2d convnet的双流式3d convnet(i3d):将非常深的图像分类convnet的过滤器和池核扩展为3d。使我们能够从视频中学习无缝的时空特征提取器,同时利用成功的imagenet架构设计甚至它们的参数。我们表明,经过动力学方面的预培训后,I3D模型大大改进了最新的动作分类,在hmdb-51上达到80.7%,在ucf-101上达到98.0%。

Introduction

  • ImageNet挑战的意外收益之一是发现在1000种类别的1000种图像上训练的深度架构可以用于其他任务和其他领域。 早期的例子之一是使用ImageNet上训练的网络中的fc7功能来应对PASCAL VOC分类和检测挑战[10]。 更进一步,从AlexNet到VGG-16的深度架构的改进,立即得以通过,以相应地提高PASCAL VOC性能[23]。从那时起,已有无数受ImageNet训练的体系结构示例可以热启动或完全满足其他任务的需要,例如, 分割,深度预测,姿势估计,动作分类。
  • 在视频领域,当在足够大的数据集上训练动作分类网络时,将其应用于不同的时间任务或数据集是否会带来类似的性能提升,这是一个悬而未决的问题。 建立视频数据集所面临的挑战意味着,最流行的动作识别基准很小,大约有1万个视频。在本文中,我们旨在使用新的动力学人类动作视频数据集[16]为该问题提供答案,该数据集比以前的数据集HMDB-51 [18]和UCF-101 [27]大两个数量级。 Kinetics提供了400个人类动作课程,每个课程都有400多个示例,每个示例均来自一个独特的YouTube视频。
  • 我们的实验策略是从文献中重新实现许多具有代表性的神经网络体系结构,然后通过先对动力学进行预训练,然后对HMDB-51和UCF-101进行微调来分析它们的传递行为。 结果表明,通过预训练始终可以提高性能,但是提高的程度随体系结构的类型而显着变化。 基于这些发现,我们引入了一种新模型,该模型具有利用动力学上的预训练的能力,并可以实现高性能。 被称为“两流融合3D ConvNets”(I3D)的模型建立在最新的图像分类架构之上,但将其过滤器和内核(以及可选参数)汇集到3D中,从而自然而然地产生了非常深的深度。 时空分类器。 在对动力学进行预训练后,基于Inceptionv1 [13]的I3D模型获得的性能远远超过了现有技术。
  • 在我们的模型比较中,我们没有考虑更经典的方法,例如视觉词袋表示[6,19,21,30]。 但是,动力学数据集是公开可用的,因此其他人可
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值