MotionSqueeze: Neural Motion Feature Learning for Video Understanding

最新推荐文章于 2024-08-18 10:32:23 发布

h137437

最新推荐文章于 2024-08-18 10:32:23 发布

阅读量1.7k

点赞数 4

分类专栏：行为识别文章标签：深度学习 pytorch 神经网络

原文链接：https://arxiv.org/pdf/2011.02543v1.pdf

版权

行为识别专栏收录该内容

8 篇文章 5 订阅

订阅专栏

MotionSqueeze

Abstract
1 Introduction
3 Proposed Method
- 3.1 MotionSqueeze(MS) module
- 3.2 MotionSqueeze network(MSNet)
Experiments
Conclusion

https://arxiv.org/abs/2007.09933
备注：如有侵权，立即删除
code: https://github.com/arunos728/MotionSqueeze
source: ECCV2020

Abstract

运动在视频理解领域非常重要，大多数视频分类的神经网络模型通过现有的光流提取方法来利用运动信息。因为计算帧与帧之间的光流需要很大的计算量，所以提取运动信息是视频理解中的计算瓶颈。在本工作中，我们将额外的计算繁重的光流换成了内部的轻量级的运动特征。我们提出了一个可训练的MotionSqueeze模型，来高效地提取运动特征。它可以插入在任意神经网络的中间层，它学习建立帧之间的响应并且把它们转化成运动特征，可以便捷地传输到下一层并且获得更好的预测效果。我们证实了提出的方法在四个行为识别的基准上取得了很大的突破，并且只有很少的额外计算，在Something-Something-V1&V2数据集上取得了最先进的效果。

1 Introduction

视频最显著的特征是运动。为了理解视频，我们需要分析它的运动模式以及视频中的对象和背景。鉴于CNNs在图片领域取得的重大成果，它们被广泛地用于学习视频帧的外观特征，并且开始利用时空卷积来学习多帧之间的时序特征。结果显示，只使用时空卷积来学习运动模式是不够的；卷积在捕获同种运动模式是有效的，但是在对象的相对移动建模方面是不太行的。因此，大多数最先进的方法仍然包含显式运动特征，即由外部现成方法[2,21,31,37,43]提取的密集光流。这在视频处理模型中造成了一个主要的计算瓶颈，原因有两个。首先，逐帧计算光流是一个耗时的过程；获取视频的光流通常比通过深度神经网络前馈视频慢一个数量级。第二，处理光流通常需要模型中的一个单独的流来学习运动表示[31]，这导致参数的数量和计算成本加倍。为了解决这些问题，有几种方法试图将运动建模[7,20,27,34]内化。然而，它们要么对其体系结构施加大量的计算[7,27]要么使用外部光流[20,34]低估了其他方法。
在这里插入图片描述

为了解决现有方法的局限性，我们提出了一种端到端可训练块，称为运动挤压(MS)模块，用于有效的运动估计。插入在任何神经网络的中间进行视频理解，它学会有效地建立跨相邻帧的对应关系，并将它们转换为有效的运动特征。由此产生的运动特征很容易被馈送到下一个下游层，并用于最终预测。为了验证所提出的MS模块，我们开发了一个视频分类体系结构，称为运动挤压网络(MSNet)，该网络配备了MS模块。与最近的方法相比，如图1所示，该方法在视频理解的准确性、计算成本和模型大小方面提供了最佳的权衡。

3 Proposed Method

视频理解的总体架构如图2所示。让我们假设一个神经网络，它以T帧的视频作为输入，并预测视频的类别作为输出，其中卷积层被用来将输入帧转换为帧外观特征。所提出的运动特征模块，称为运动挤压(MS)模块，被插入，以产生帧向运动特征使用对相邻的外观特征。结果运动特征被添加到外观特征中，以进行最终预测。在这一部分中，我们首先解释了MS模块，并描述了我们的网络体系结构的细节，供视频理解。

3.1 MotionSqueeze(MS) module

MS模块是一种可学习的运动特征提取器，它可以取代使用显式光流来理解视频。如图3所示，给定来自相邻帧的两个特征映射，它学习在三个步骤中提取有效的运动特征：相关计算、位移估计和特征变换。
在这里插入图片描述
Correlation Computation. 让我们用F(T)和F(T1)表示相邻的两个输入特征映射，每个都是大小为H×W×C的三维张量。空间分辨率为H×W，空间位置x上的C维特征为Fx。位置x相对于位移p的相关分数定义为

其中·表示点积。为了提高效率，我们只通过限制最大位移：p∈[k，k]2来计算位置x在其大小P=2k1的邻域内的相关分数。对于TT H帧，得到的相关张量S(T)大小为H×W×P2。计算相关张量的成本相当于P2核的1×1卷积；相关计算可以在Tth特征映射上实现为2D卷积，使用T1特征映射作为P2核。单个视频中的总FLOP为HWCP2。我们在计算相关性之前应用卷积层，它学习加权信息特征通道来学习视觉对应。在实践中，我们在给定空间分辨率28×28的情况下设置邻域P=15，并应用具有C/2通道的1×1层。对于相关计算，我们采用了C/Cuda在FlowNet[6]中实现的相关层版本。

Displacement estimation. 从相关张量S(T)估计运动信息的位移场。一种简单但不可微的方法是用argmaxps(x，p，t)对位置x进行最佳匹配位移)。为了使操作可微，我们可以使用Softmax的加权平均位移，称为Soft-argmax[13,19]，定义为：
在这里插入图片描述

然而，这种方法对相关张量中的噪声异常值很敏感，因为它受到所有相关值的影响。因此，我们使用核-soft-argmax[19]，通过在相关值上掩蔽二维高斯核来抑制这种异常值；核以每个目标位置为中心，从而使估计更受更近的邻居的影响。我们的用于位移估计的内核-软-argmax被定义为
在这里插入图片描述

请注意，g(x，p，t)是高斯核，我们经验性地将标准差σ为5。τ是调节Softmax分布的温度因子；随着τ的减小，Softmax接近Argmax。我们在实验中设定τ=0.01。

除了估计的位移图外，我们还使用相关的置信图作为辅助运动信息，它是通过在每个位置x上汇集最高的得到的：
在这里插入图片描述
置信图可能有助于识别位移异常值和学习信息丰富的运动特征。

我们将（2-通道)位移图和(1-通道）连接映射连接成尺寸为H×W×3的位移张量D(T)，用于下一步的运动特征变换。图4显示了它们的一个示例

Feature transformation. 我们将位移张量D(T)转换为一个有效的运动特征M(T)，它很容易结合到下游层中。将张量D(T)馈送到四个深度可分卷积[14]层，一个1×7层，然后是三个1×3层，并将其与原始输入F(T)相同通道数C的运动特征M(T)。深度可分离卷积近似于二维卷积，计算成本[4,29,36]明显较低。请注意，所有深度和点向卷积层后面都是批归一化[15]和ReLU[25]。与[31]的时间流层一样，这个特征转换过程旨在通过解释位移和置信度的语义来学习具有卷积层的任务特定运动特征。如图2所示，MS模块使用两个相邻的外观特征F(T)和F(T1)生成运动特征M(T)，然后将其添加到下一层的输入中。给定T帧，我们只需通过设置M(T)=M(T1)将最终运动特征M(T)与M(T1)进行叠加)。

3.2 MotionSqueeze network(MSNet)

可以将MS模块插入到任何视频理解架构中，通过运动特征建模来提高性能。在本工作中，我们介绍了标准卷积神经网络(CNN)与MS模块，称为MSNet，用于视频分类。我们采用图像网预训练的ResNet[12]作为CNN骨干，并为ResNet的每个剩余块插入TSM[21]。在卷积操作之前，TSM使二维卷积能够通过沿时间轴移动一部分输入特征通道来获得三维卷积的效果。在[21]中的默认设置之后，我们将输入特征通道的1/8向前移动，并将每个TSM中的另1/8通道向后移动。

所提出的模型的总体架构如图2所示；在ResNet的第三阶段之后插入单个MS模块。我们将运动特征融合到外观特征中，通过元素添加：
在这里插入图片描述
在第4.5节中，我们广泛地评估了不同的融合方法，例如级联和乘法，并表明加性融合比其他融合更好。合并两个特征后，组合特征通过下一个下游层。将T帧上的网络输出进行时间平均以产生最终输出，并将Softmax的交叉熵作为训练的损失函数。在默认设置下，MSNet在单个网络中联合学习外观和运动特征，其成本分别仅为FLOPS和参数数量的2.5%和1.2

Experiments

在这里插入图片描述

Conclusion

我们提出了一个高效而有效的运动特征块，MS模块，它学习在飞行中生成运动特征，以便视频理解。 MS模块可以很容易地插入到任何现有的视频架构中，并通过反向传播进行培训。该模块的烧蚀研究证明了该方法在精度、计算成本和模型大小方面的有效性。我们的方法优于现有的最先进的方法的Smoething-Something-V1和V2视频分类，只有少量的额外成本。