Mutual Modality Learning for Video Action Classification

最新推荐文章于 2024-02-29 22:17:37 发布

翻译最新推荐文章于 2024-02-29 22:17:37 发布 · 320 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://arxiv.org/pdf/2011.02543

文章标签：

#深度学习 #pytorch #神经网络

行为识别专栏收录该内容

8 篇文章

订阅专栏

提出一种新的视频动作识别方法，通过单模态模型间的相互学习提升性能，并结合适当的初始化策略，实现在Something-v2数据集上的最新成果。

MML

Abstract
1 Introduction
3 Proposed Method
Experiments
Conclusion

备注：如有侵权，立即删除
code: https://github.com/papermsucode/mutual-modality-learning
source: 2020

Abstract

视频动作分类模型的构建进展迅速。然而，这些模型的性能仍然可以很容易地通过与受过不同模式培训的相同模型(例如。光流)。不幸的是，在推理过程中使用几种模式在计算上是昂贵的。最近的工作研究了将多模态的优点集成到单个RGB模型中的方法。然而，仍有改进的余地。本文探讨了将集成功率嵌入到单个模型中的各种方法。我们表明，适当的初始化以及相互模态学习增强了单模态模型。因此，我们在Something-v2基准中实现了最先进的结果。

1 Introduction

视频识别在过去几年中取得了很大进展。数据集已经从数千个剪辑[15]，[23]扩大到数十万个[1]，[10]，[14]，甚至数亿[17]。基于神经网络的视频处理方法从简单的3D卷积[25]发展到Parvo和Magnobell对应的仿真[7]并吸收了经典图像识别的发展

信号仍然是有用的：视频序列的光流估计可以显著提高视频识别[22]的质量。然而，估计光流的常用方法需要大量的计算，这与整个进一步的神经网络推理是相当的。这就是为什么在基于RGB的神经网络推理过程中，许多工作致力于隐式光流估计

在我们的工作中，我们不仅目标是改进基于RGB的模型，而且同时改进不同的单模模型。为此，我们利用相互学习[34]，使我们能够在两个方向的单模模型之间共享知识。我们将它与适当的初始化相结合，以发展训练模型的性能。

我们表明，我们的方法不仅改进了每个单一模型，而且比现有的方法更好地提高了基于RGB的模型。此外，我们还研究了如何使用互学习来获得多模态集成的最佳结果。因此，我们实现了最先进的(SOTA)结果在Something-V2基准中以前的那些报告之间。

3 Proposed Method

最佳单模模型训练流水线的命题如图1所示。最佳集成训练的管道在第五节中描述。

流水线由初始化准备，ML注入和互模学习(MML)三部分组成)。第四节确认了每个部分的重要性。

Initialization preparation

视频动作分类-阳离子模型训练的标准起点是图像网[4]预训练模型。 [2]中提出的2d转换的充气使得3d模型和2d模型都有可能实现。
在这里插入图片描述

必须将第一次卷积的形状从(C，3，K，K)改为(C，N，K，K)。这里，C是第一个卷积的多个输出通道，K是核大小，N是新输入的多个通道。新卷积权重的伪码如下：

for i in 1:N do
     W_new[:,i] = (W[:,1]+W[:,2]+W[:,3])/3
end

在建议的管道中，我们只在第一步使用Image Net初始化。接下来的两个步骤使用前一步的权重（如果需要，则改变第一个卷积形状）。

Mutual Learning implantation

他们互相帮助，以达到更好的趋同。为了实现这一点，我们修改了网络的损失函数如下：

在这里插入图片描述
这里，Li是第i个网络的损失，pi是第i个网络预测类概率的向量，y是一个基序类标签，LCE是一个交叉熵损失，LKL是公式给出的KullbackLeibler(KL)发散损失

在这里插入图片描述
在这个公式中，PNI表示由第一个模型预测的n类的概率。因此，模型使用它们在训练过程中发现的依赖关系相互教学，从而提高它们的性能。

如果ML中涉及两个以上的模型，则损失函数为
在这里插入图片描述

Mutual Modality Learning

在原始ML中，两个模型使用与输入相同的模式。我们建议使用从同一帧获得的视频的不同模式作为不同模型的输入。因此，我们将从一种模式获得的知识分享到其他模式。

请注意，我们需要两个连续的帧来计算光流。因此，如果总共有N个RGB帧，那么总共只有N个N1光流帧。

因此，假设模型需要T输入帧进行预测，我们有两种不同模式的视频表示：一种是n帧表示，另一种是N帧表示(N>n)。

对于这一情况和我们工作中的类似情况，我们首先对帧数最少的模态进行数字(I1，…，iT)采样帧，然后对帧数最大的模态使用带有数字的帧(I1ξ，…，iTξ。这里ξ∼单位{0，…，N，n}

Experiments

在这里插入图片描述

Conclusion

我们提出了相互模态学习，这种方法通过与基于其他模式的模型联合训练来提高单模态模型的性能。此外，我们还表明，网络权重的适当初始化提高了各种训练场景的性能。我们检查我们的建议是否适用于不同的模型和数据集，即使是多标签任务。我们的实验导致了最先进的结果，在Something-Something-v2基准。