DMC-Net

论文题目:《DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition》(主要是翻译笔记)

Abstract

动作已被证明是有用的视频理解,其中动作通常用光流来表示。然而,从视频帧中处理流是非常耗时的。最近的作品直接利用压缩视频中动作的矢量和残差来代表动作,没有成本。这虽然避免了流计算,但也会影响精度,因为动作矢量是有噪声的,而且大大降低了分辨率,这使得它成为一种更少区别的动作表示。为了解决这些问题,我们提出了一种轻量级的generator网络,它减少了动作矢量中的噪声,并捕捉了精细的动作细节,实现了更强的Discriminative Motion Cue (DMC)表示。由于光流是更精确的动作表示,我们训练DMCgenerator使用重建损失和对抗损失来近似流,并与后阶段的动作分类任务相结合。对三个动作识别基准(hmb -51、UCF-101和一组动力学)的广泛评估证实了我们方法的有效性。我们的整个系统,包括发生器和分类器,被命名为DMC-Net,它的精度接近于使用流的精度,在推理时比使用光流快两个数量级。

1. Introduction

视频是一个丰富的视觉内容来源,它不仅在单个帧中获取外观信息,而且在连续帧中获取实时动作信息。之前的工作已经表明,动作建模对于各种视频分析任务都是非常重要的,比如动作识别[39,47,22],动作定位[35,34,38,5,37]以及视频概述[43,28]。目前的方法取得的最先进技术通常都是遵循双流网络框架[39,4,46],它由两个卷积神经网络(CNNs)组成,一个用于解码的RGB图像,另一个用于光流,如图2a所示。这些网络可以在单帧(2D输入)或剪辑(3D输入)上操作,并且可以利用3D时空卷积[44,46]。

然而,提取光流非常慢,并且经常占据了视频分析任务的整个处理时间。最近的研究[52,57,56]利用MPEG-4[23]等标准编码的压缩视频中的动作信息,避免了光流计算。这些方法利用压缩视频中的动作矢量和残差来模拟动作。最近提出的CoViAR[52]方法包含三个独立的CNNs,在压缩视频的三种模式下运行,即I帧(I)的RGB图像,低分辨率动作矢量(MV)和残差(R)。来自单个CNNs的预测是通过后期融合得到的。CoViAR模拟动作特征(见图2b)运行非常快。然而,为了达到最新的精度,需要进一步利用光流进行后期融合(见图1)。

这种性能差距是由于动作矢量的信息量和鉴别能力都不如流。首先,在视频编码过程中,动作矢量的空间分辨率得到了大幅度的减少(即16x),而对动作识别非常重要的精细动作永久的丢失。其次,使用两个CNNs分别处理动作矢量和残差,忽略他们之间的相互影响。由于残差的计算是原始RGB图像与被动作矢量扭曲的参考帧之间的差值。根据[32]算法,残差与动作目标的边界对齐,对于动作识别这比其它位置的动作更加重要。将动作矢量和残差分别看作粗尺度和细尺度的动作特征进行联合建模,可以更有效地利用编码后的动作信息。

为了解决这些问题,我们提出了一种新的方法来学习产生一个Discriminative Motion Cue (DMC),通过细化有噪声和粗糙的动作矢量来表示。我们开发了一个轻量级的DMC生成器网络,该网络基于堆叠的动作矢量和残差。该发生器需要不同来源的训练信号来捕获有区别的动作线索,并融合高级识别知识。特别地,由于流包含高分辨率和精确的动作信息,我们鼓励生成的DMC使用像素级重建损失来模拟光流。我们也使用一个对抗损失[13]来近似光流的分布。最后,DMC生成器还由下游的动作识别分类器以端到端方式进行监督,让它学习具有识别辨别力的动作线索。

在推理过程中,DMC发生器是非常有效率的只需要0.23 GFLOPs,而且处理每帧只需要0.106毫秒,与使用流的时间成本相比,哪个是微不足道的。在图2c中,我们称我们的完整模型为DMC-Net。虽然在训练过程中需要光流,但我们的方法在推理时仅适用于压缩域,此外运行速度比使用光流的方法快两个数量级,如图1所示。我们的贡献总结如下:

我们提出了DMC-Net,这是一种新颖高效的框架,专门用于压缩视频领域,能够在不需要光流估计的情况下实现高精度。

我们设计了一个轻量级的生成器网络,利用光流作为监督并与动作分类器联合训练,可以学习预测有区别的动作线索。在推理过程中,它比估计流快两个或多个数量级。

我们广泛地评估了DMC-Net的3种动作识别基准,即HMDB-51 [21], UCF-101个[40]和Kinetics [20]的一个子集,并证明它可以显著缩短与最先进的使用光流和不使用光流的基于压缩视频的方法之间的性能差距。

2. Related Work

Video Action Recognition. 二维卷积神经网络在图像识别方面的成功,极大地推动了动作识别的发展。原始的双流网络[39]采用分离的二维卷积神经网络来处理RGB帧和光流,并通过后期融合来合并它们的预测。区别于图像,具有时间结构的视频和动作信息,这对视频分析来说是非常重要的。这促使研究人员对其进行更有效的建模,如3D ConvNets[44, 4]、Temporal Segment Network(TSN)[49],动态图像网络[1],和非本地网络[50]。尽管通过时域卷积对动作进行建模需要付出大量的努力,但将三维卷积神经网络与光流融合后仍然可以获得更高的精度[4,46],遗憾的是,这种方法的计算成本较高。

Compressed Video Action Recognition. 近年来,人们提出了许多压缩视频领域的信息表示的方法。在首创的工作中[56,57],Zhang等人用动作矢量流代替了双流方法中的光流,但仍然需要对RGB图像进行解码,在压缩视频中,比如残差图忽略了其他的动作编码模式。最近,CoViAR方法[52]提出利用压缩视频中的所有数据模式,即RGB i帧、motion vector和residuals来绕过RGB帧解码。然而,由于动作矢量的分辨率较低,以及动作矢量和残差虽然高度相关,但由独立网络处理,使得CoViAR无法实现与双流方法的性能比较。我们认为,如果适当的利用,压缩视频模式有足够的信号,使我们能够捕捉到更多的区别性的动作表现。因此,我们明确地学习了这样的表征,而不是依靠光流进行推理。

Motion Representation and Optical Flow Estimation. 传统的光流估计方法明确地对连续帧之间每个像素的位移进行建模[15,54,7,2]。在过去的几年里,CNNs已经成功地被训练来估计光流,包括FlowNet[8,17]、SpyNet[31]和PWC-Net[42],并在具有挑战性的基准上实现低End-Point Error (EPE),如MPI Sintel[3]和KITTI 2015[29]。Im2Flow work[12]还表明,光流可以从静止图像中分离出来。然而,最近的研究表明,光流的精度与视频识别[33]的精度并没有很强的相关性。因此,动作表征学习方法更侧重于生成描述性的动作线索。Fan等人[9]提出了将TV-L1光流算法转化为可训练的子网络,它可以与下游识别网络联合训练。Ng[30]等人利用全卷积残差网络模型生成像素级光流的预测,它可以与识别网络联合训练。与光流估计方法不同,我们的方法不以减少EPE误差为目标。与上述以解码RGB帧为输入的动作表示学习方法不同的是,该方法在压缩域内对动作矢量进行了改善,而生成有区别的动作线索需要的模型更小。

3. Approach

在这一节中,我们提出了从压缩视频中产生Discriminative Motion Cues (DMC)的方法。我们提出的DMC-Net的总体框架如图3所示。在3.1节中,我们将介绍压缩视频的基础知识和使用的符号。在此基础上,我们设计了3.2节中的DMC发生器网络。最后,我们在3.3节中提出了训练目标,在3.4节中讨论了推论。

3.1. Basics and Notations of Compressed Video

我们遵循CoViAR[52]和使用MPEG-4 Part2 [23] 编码的视频,其中每个I-frame后面跟着11个连贯的P-frames。MPEG-4压缩视频中有三种数据模式: (1) I-frame的RGB图像(I);(2)动作矢量(MV)记录了P-frame中每个macroblock到其参考帧的位移,通常在视频压缩时将一帧分割为16x16个macroblock; (3)残差(R)存储了基于MV的动作压缩后的一个P-frame与他的参考I-frame之间的RGB差异。一个高度为H和宽度为W的框架, I和R有形状(3,H, W)和MV有形状(2,H, W),但注意MV的实际分辨率要低得多,因为它在相同macroblock中的值是相同的。

3.2. The Discriminative Motion Cue Generator

Input of the generator. 现有的基于压缩视频的方法直接将动作矢量输入分类器来模拟动作信息。由于M的特点,这种策略在动作建模中并不有效:(1)MV的计算是基于简单的块匹配、制作MV噪声大,(2)MV分辨率低,缺乏精细的动作细节。为了更好地处理MV的这些特性,我们设计了一个轻量级的生成网络来降低MV中的噪声,并获取更准确的动作细节,输出的DMC作为一个更具有辨别性的动作表示。

要实现这一目标,单靠MV可能是不够的。根据[32],对于动作识别来说,物体边界附近的动作比其他位置的动作更重要。我们还注意到R经常与动作物体的边界对齐。此外,R与MV之间有很强的相关性,因为它被计算为原始帧之间的差,它参考I-frame采用MV补偿。因此,我们建议将堆叠的MV和R作为输入,输入到DMC生成器中,如图3所示。这种允许利用MV和R中动作信息以及它们之间的相关性的方法是在目前压缩视频工作中不能单独使用cnn来建模的(52,57,56)。

Generator network architecture. 针对RGB图像的光流估计,提出了几种深度生成网络。PWC-Net[42]就是其中之一,它在端点误差(EPE)和推理速度方面都实现了SoTA性能。我们因此选择在我们的生成器设计原则的基础上使用的PWC-Net。值得注意的是,PWC-Net采用解码的RGB帧作为输入,而不像我们提出的方法只在压缩域内运行。

如表1所示,我们的DMC发生器直接采用PWC-Net中的flow estimator network的网络结构将导致高GFLOPs。为了提高效率,我们进行了详细的架构搜索实验来减少了PWC-Net中的flow estimator network的每个卷积层过滤器的数量,实现了精度和复杂度的平衡。此外,由于我们的目标是改善MV,我们建议在输入MV和输出DMC之间添加一个快捷连接,使生成器直接预测在MV上添加的改进来获得DMC。

表2展示了我们的DMC 生成器的网络结构:6个卷积层依次堆叠,所有卷积层紧密连接[16]。每个卷积核为3 * 3,步长为1和填充为1. 除了conv5外,每个卷积层后面都有一个Leaky ReLU[26]层,其中负斜率为0.1。

如表1所示,如果pwc网络中的流估计器被用于实现我们的DMC生成器,那么我们的DMC生成器只需要0.63%的GFLOPs。同时,表1比较了我们的DMC生成器与其他流行的视频分析网络架构,包括帧级模型(ResNet-18和ResNet-152[14])和剪辑级模型(C3D[44]和Res3D[45])。我们观察到,与其它结构相比,DMC发生器的复杂度要小上几个数量级,这使得它的运行速度大大提高。在补充中,我们探索了一种策略,使用两个连续的网络分别纠正MV中的错误和捕获精细的动作细节,而这并没有达到更好的准确性。

3.3. Flow-guided, Discriminative Motion Cues

与MV相比,光流具有更多的区别动作的信息:1)不像MV采用简单的块匹配,现在稠密流估计是由粗尺度逐步计算到细尺度[55]。(2)不像MV是块的,因此错过了精细的细节,流保持相应帧的完整分辨率。因此,我们建议使用光流来指导我们的DMC发生器的训练。为此,我们采用了不同的方法,确定了三种有效的训练损失,如图3所示,将在接下来的步骤中介绍:流重构损失、对抗损失和下游分类损失。

3.3.1 Optical Flow Reconstruction Loss

首先,我们将生成的DMC与相应的光流之间的像素差异最小化。跟随Im2Flow[12],它近似于从一个单一RGB图像的流,我们使用均方误差(MSE)重构loss 定义为:

其中p为训练视频中P-frames的集合,E表示计算期望,

分别表示从p采样的对应输入帧x的DMC和光流。由于只有部分流区域包含对动作识别很重要的判别动作线索,在补充材料中我们探讨了加权流重构损失,以鼓励关注流的显著区域。但是这种策略并没有达到更好的准确性。

3.3.2 Adversarial Loss

如以往的研究指出,MSE损失假设目标数据来自高斯分布,从而产生平滑模糊的输出。这实际上导致了较不清晰的运动表示,特别是在边界附近,使得生成的DMC不那么有辨别力。生成对抗网络(GAN)[13]已被提出,以尽量减少Jensen - Shannon在生成模型和真实数据分布之间产生了分歧,使得两者相似。因此,为了帮助我们的DMC生成器了解光流数据的分布,我们进一步提出了一种对抗性的损失。注意,与随机噪声采样的GAN不同,对抗损失冲输入数据集采样,已经有了很大的可变性[27]。

通过对抗性训练过程, 学习近似流数据的分布,生成DMC具有更多的细节,因此更类似于流。这些精细的细节通常能捕捉到有区别的动作线索,因此对动作识别很重要。我们在补充资料中介绍了discriminator network结构的细节。

3.3.3 The Full Training Objective Function

Semantic classification loss。由于我们的最终目标是创建对下游动作识别任务具有区别性的动作表示,因此,对生成器和后续动作分类器进行联合训练是非常重要的。我们使用softmax损失作为我们的动作分类损失,记为

Inference

如图3所示,尽管有三个端到端联合训练的损耗,我们的DMC- net在推理过程中实际上是相当高效的:基本上,首先生成器输出DMC,然后将生成的DMC输入到分类网络中进行动作类预测。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值