人体行为识别:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

参考文献:https://arxiv.org/abs/1705.07750
pytorch代码实现:https://github.com/MRzzm/action-recognition-models-pytorch

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

摘要

由于目前动作分类数据集(UCF-101和HMDB-51)中视频的缺乏,大多数方法在小规模数据集基础上的性能相似,很难得到识别效果好的网络结构,本文根据最新的Kinetics人体动作视频数据集重新评估了当前最先进的网络结构。Kinetics从具有挑战的YouTube视频收集,比UCF-101和HMDB-51大两个数量级,具有400个人体动作类别和每个类别超过400个片段。我们挑选经典的图像分类方法在Kinetics数据集上进行预先训练,然后在较小的基准数据集(UCF-101和HMDB-51)上作微调。

我们还利用2D ConvNet扩充得到新的双流3D ConvNet(I3D):将深度神经网络结构中的filters和pooling kernels扩展到3D,从而更好地提取视频时序信息,又由于是从2D扩展而来,还可以利用ImageNet训练好的参数。结果表明,经过Kinetics预训练后,I3D模型在动作分类方面取得了很大的改进,HMDB-51和UCF-101数据集分别达到80.9%和98.0%。

1 引言

ImageNet是目前计算机视觉领域最大的图像数据集,有1500 万由人工注释的带标签的图片,超过 2.2 万个类别。在ImageNet数据集上训练得到的网络架构可以应用于其他任务和其他领域,例如,使用ImageNet上训练网络的fc7特征在PASCAL VOC数据集中执行分类和检测任务[10,23],且随着网络结构的改进(从AlexNet到VGG-16),PASCAL VOC数据集的性能得到改善[25]。许多例子表明,经过ImageNet训练得到的网络结构可以满足其他任务,例如目标分割、深度预测、姿势估计、动作分类等。

针对视频行为识别,在一个足够大的数据集上训练一个动作分类网络,当应用于不同的时空任务或数据集时,是否会在性能上有相似的提高,这是一个悬而未决的问题。建立具有挑战的视频数据集味着大多数流行的动作识别数据集的基准都很小,大约有10万个视频。

在本文中,我们使用新的Kinetics人体动作视频数据集[16]来回答这个问题,Kinetics从具有挑战的YouTube视频收集,比UCF-101和HMDB-51大两个数量级,具有400个人体动作类别和每个类别超过400个片段。

我们的实验策略是首先从现有文献中重新实现一些有代表性的动作分类神经网络结构,然后每个网络结构在Kinetics上进行预训练,最后在HMDB-51和UCF-101上分别进行微调来分析它们的迁移行为。结果表明,通过预训练可以提高系统性能,但在不同的体系结构中,性能提高程度会有很大的差异。在此基础上,我们提出了一个新的模型,该模型能够充分利用Kinetics预训练的优势,达到较高的性能。该模型被称为“双流Inflated 3D ConvNets”(I3D),在最先进图像分类网络结构的基础上,将filters和pooling kernels扩展到3D,从而得到时空分类器。基于Inceptionv1[13]的I3D模型在经过Kinetics的预训练后,性能远远超过了当前状态。

在我们的模型比较中,我们没有考虑更经典的方法,如bag-of-visual-words表示[6,19,22,33],但是Kinetics数据集是公开的,可以使用它进行此类比较。

本文的工作安排如下:第2节阐述目前最先进的动作分类模型,第3节介绍Kinetics数据集,第4节报告了模型在先前基准和Kinetics数据集上的性能,第5节研究了在Kinetics学习到的特征如何迁移到不同的数据集,第6节讨论。

2 动作分类的网络结构

虽然近年来基于图像表示的网络结构发展很快,但目前仍然没有一个清晰的基于视频信息表示的网络结构。目前视频网络结构中的一些主要区别在于:卷积和层的运算是使用2D(基于图像)还是3D(基于视频)kernels;网络的输入仅仅是RGB视频还是RGB视频+预计算的光流;在2D ConvNets的情况下,信息是如何跨帧传播的,这可以使用诸如LSTMs之类的临时递归层,或者随着时间的推移使用特征聚合来完成。

在本文中,我们比较和研究了动作分类模型包括:在2D ConvNet方法中,我们考虑了ConvNet+LSTMs[5,37]和两种不同类型流融合的双流网络[8,27];我们还考虑了3D ConvNet[14,30]:C3D[31]

作为主要的技术贡献,我们提出了双流Inflated 3D ConvNets(I3D)。由于参数高维和缺少标记的视频数据,以前的3D ConvNets相对较浅(多达8层)。我们观察到,非常深的图像分类网络,例如Inception[13]、VGG-16[28]和ResNet[12],可以简单地扩展为时空特征提取器,并且它们的预训练权重提供了有价值的初始化。我们还发现双流配置仍然有用。

我们评估的五种网络结构的图形概述如图2所示,模型参数大小和输入如表1所示。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值