视频动作质量评估:论文分享

本文介绍了QuoVadis中的新模型I3D,这是一种基于2D卷积神经网络膨胀的双流膨胀3D卷积神经网络,通过扩大Kinetics数据集解决动作分类中数据不足的问题。I3D通过3D卷积和ImageNet架构,有效提取视频的时空特征,实验表明在HMDB-51和UCF-101上的迁移学习表现良好。
摘要由CSDN通过智能技术生成

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

摘要:当前动作分类数据集中视频的匮乏导致大多数方法在现有小规模基准测试集中获得类似的性能。文章提出一种新的数据集Kinetics,包含400个类,每个类有400个片段,介绍一种新的基于2D卷积神经网络膨胀的双流膨胀3D卷积神经网络(I3D),作者将过滤器和非常深的图像分类卷积神经网络的池化核被扩展到3D,使得从视频中学习无缝的时空特征提取器成为可能,同时结合ImageNet架构。实验表明,I3D模型能够取得良好的效果。

1.介绍

ImageNet一个显著的优势在于从1000个类别的1000张图像上训练的深度架构可以用于其他任务和领域。但后来研究者发现ImageNet训练的架构不能应用于很多领域,如分割、深度估计、姿态估计和动作分类等。在视频理解领域,在一个足够大的数据集上训练一个动作分类网络,当其应用于不同的任务或数据集时,能否取得类似的性能困扰了众多的研究者,因为当前并没有足够大的数据集。所以作者构建Kinetics数据集解决这个问题。

作者从文献中复现一些具有代表性的神经网络架构,然后在Kinetics上进行预训练,在HMDB-51和UCF-101上检验迁移学习效果,实验中作者发现通过预训练总是可以提高模型性能。基于这些发现,作者提出一种利用Kinetics预训练的能力的新模型,即双流膨胀的3D卷积神经网络(I3D)。模型建立在最先进的图像分类架构上,将过滤器和2D kernel、池化层膨胀为3D,产生非常深入、自然的时空分类器。

虽然近年来图像表示体系结构的发展已经迅速成熟,但对于视频来说,仍然没有一个明确的前端运行体系结构。当前视频架构的一些主要差异在于卷积算子和层算子是使用2D还是3D内核;网络输入是否是一个RGB视频,或者还包括预先计算的光流;在二维卷积神经网络的情况下,信息是如何跨帧传播的,是使用LSTM临时循环层还是随时间的特征聚合来完成。

图片来源于论文Quo Vadis, Action Recognition?A New Model and the Kinetics Dataset

 上图的a)展示了ConvNet+LSTM模型,该方法是在模型中添加一个LSTM层,可以对状态进行编码,捕获时间顺序和长距离依赖关系,在所有时间步长的输出上使用交叉熵损失进行训练。

图b)是3D卷积神经网络,相比于标准卷积网络,多了时空过滤器,可以直接创建时空数据的分层表示,但是参数较多,训练困难。图c)是双流网络,是一种处理视频数据的深度学习架构,由光流和RGB流组成,分别处理运动和空间信息。图d)e)是将bc融合,d将双流网络最后的加权融合替换为一个小型3D卷积网络,e是作者提出的双流I3D网络。

2.方法

Inflating 2D ConvNets into 3D:作者通过扩展所有的卷积核和池化层直接将2D卷积网络转为3D,保持原有网络架构不变,避免了重新设计网络带来的麻烦。

Bootstrapping 3D filters from 2D Filters:作者目的在于从一个2D ImageNet已经训练好的模型出发去初始化一个3D模型,并继续训练。具体操作是作者用同样一张图片进行反复的复制粘贴,变成一个视频,即文中提到的boring video。3D模型可以通过满足所谓的“无聊视频固定点”来隐式地在ImageNet上进行预训练:无聊视频的池化激活应该与原始的单图像输入相同。这可以通过在时间维度上重复2D滤波器的权重N次并通过N进行缩放来实现,得益于线性性质。这确保了卷积滤波器响应是相同的。由于无聊视频的卷积层输出在时间上是常数,因此逐点非线性层和平均以及最大池化层的输出与2D情况相同,因此整个网络响应遵循了无聊视频固定点。

Pacing receptive field growth in space, time and network depth:无聊视频固定点在如何沿时间维度膨胀池操作以及如何设置卷积/池化时间步幅上留下了很大的自由度 - 这些是塑造特征感知场大小的主要因素。几乎所有图像模型都平等对待两个空间维度(水平和垂直) - 池化核和步幅相同。这是相当自然的,意味着网络中更深层次的特征受到了越来越远的两个维度上图像位置的同等影响。然而,对称的感知场在考虑时间时未必是最优的 - 这应该取决于帧率和图像尺寸。如果相对于空间,它在时间上增长得太快,可能会混淆来自不同对象的边缘,从而破坏早期特征检测,而如果它在时间上增长得太慢,可能无法很好地捕捉场景动态。

Two 3D Streams:虽然 3D ConvNet 应该能够直接从 RGB 输入中学习运动特征,但它仍然执行纯前馈计算,而光流算法在某种程度上是循环的(例如,它们对流场进行迭代优化)。也许正因为缺乏这种循环性,实验证明在某种程度上仍然有必要使用两流配置,其中一个 I3D 网络在 RGB 输入上训练,另一个在流输入上训练,携带优化的、平滑的流信息。作者分别训练了这两个网络,并在测试时对它们的预测进行了平均。

图片来源于论文Quo Vadis, Action Recognition?A New Model and the Kinetics Dataset

上图是被inflate过的Inception-V1模型,首先输入视频,经过7*7*7的卷积,步长是2,按照作者将2D扩展为3D的方法,max-pooling应该是3*3*3,stride应该是2,2,2,但是作者考虑到动作时间较短,因此在时间维度未进行下采样,接下来又进行两次卷积、一次池化,在时间维度均未下采样。Inception module结构没有变化,作者将所有的卷积、池化都从2D扩展到3D。

  • 15
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值