Mutual Modality Learning for Video Action Classification

备注: 如有侵权,立即删除
code: https://github.com/papermsucode/mutual-modality-learning
source: 2020

Abstract

视频动作分类模型的构建进展迅速。 然而,这些模型的性能仍然可以很容易地通过与受过不同模式培训的相同模型(例如。 光流)。 不幸的是,在推理过程中使用几种模式在计算上是昂贵的。 最近的工作研究了将多模态的优点集成到单个RGB模型中的方法。 然而,仍有改进的余地。 本文探讨了将集成功率嵌入到单个模型中的各种方法。 我们表明,适当的初始化以及相互模态学习增强了单模态模型。 因此,我们在Something-v2基准中实现了最先进的结果。

1 Introduction

视频识别在过去几年中取得了很大进展。 数据集已经从数千个剪辑[15],[23]扩大到数十万个[1],[10],[14],甚至数亿[17]。 基于神经网络的视频处理方法从简单的3D卷积[25]发展到Parvo和Magnobell对应的仿真[7]并吸收了经典图像识别的发展

信号仍然是有用的:视频序列的光流估计可以显著提高视频识别[22]的质量。 然而,估计光流的常用方法需要大量的计算,这与整个进一步的神经网络推理是相当的。 这就是为什么在基于RGB的神经网络推理过程中,许多工作致力于隐式光流估计

在我们的工作中,我们不仅目标是改进基于RGB的模型,而且同时改进不同的单模模型。 为此,我们利用相互学习[34],使我们能够在两个方向的单模模型之间共享知识。 我们将它与适当的初始化相结合,以发展训练模型的性能。

我们表明,我们的方法不仅改进了每个单一模型,而且比现有的方法更好地提高了基于RGB的模型。 此外,我们还研究了如何使用互学习来获得多模态集成的最佳结果。因此,我们实现了最先进的(SOTA)结果在Something-V2基准中以前的那些报告之间。

3 Proposed Method

最佳单模模型训练流水线的命题如图1所示。 最佳集成训练的管道在第五节中描述。

流水线由初始化准备,ML注入和互模学习(MML)三部分组成)。 第四节确认了每个部分的重要性。

Initialization preparation

视频动作分类-阳离子模型训练的标准起点是图像网[4]预训练模型。 [2]中提出的2d转换的充气使得3d模型和2d模型都有可能实现。
在这里插入图片描述

必须将第一次卷积的形状从(C,3,K,K)改为(C,N,K,K)。 这里,C是第一个卷积的多个输出通道,K是核大小,N是新输入的多个通道。 新卷积权重的伪码如下:

for i in 1:N do
     W_new[:,i] = (W[:,1]+W[:,2]+W[:,3])/3
end

在建议的管道中,我们只在第一步使用Image Net初始化。 接下来的两个步骤使用前一步的权重(如果需要,则改变第一个卷积形状)。

Mutual Learning implantation

他们互相帮助,以达到更好的趋同。 为了实现这一点,我们修改了网络的损失函数如下:

在这里插入图片描述
这里,Li是第i个网络的损失,pi是第i个网络预测类概率的向量,y是一个基序类标签,LCE是一个交叉熵损失,LKL是公式给出的KullbackLeibler(KL)发散损失

在这里插入图片描述
在这个公式中,PNI表示由第一个模型预测的n类的概率。 因此,模型使用它们在训练过程中发现的依赖关系相互教学,从而提高它们的性能。

如果ML中涉及两个以上的模型,则损失函数为
在这里插入图片描述

Mutual Modality Learning

在原始ML中,两个模型使用与输入相同的模式。 我们建议使用从同一帧获得的视频的不同模式作为不同模型的输入。 因此,我们将从一种模式获得的知识分享到其他模式。

请注意,我们需要两个连续的帧来计算光流。 因此,如果总共有N个RGB帧,那么总共只有N个N1光流帧。

因此,假设模型需要T输入帧进行预测,我们有两种不同模式的视频表示:一种是n帧表示,另一种是N帧表示(N>n)。

对于这一情况和我们工作中的类似情况,我们首先对帧数最少的模态进行数字(I1,…,iT)采样帧,然后对帧数最大的模态使用带有数字的帧(I1ξ,…,iTξ。 这里ξ∼单位{0,…,N,n}

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

我们提出了相互模态学习,这种方法通过与基于其他模式的模型联合训练来提高单模态模型的性能。 此外,我们还表明,网络权重的适当初始化提高了各种训练场景的性能。 我们检查我们的建议是否适用于不同的模型和数据集,即使是多标签任务。 我们的实验导致了最先进的结果,在Something-Something-v2基准。

Deep Mutual Learning是一种用于训练小型但强大的深度神经网络的方法。它与传统的模型蒸馏有所不同,但相关。在Deep Mutual Learning中,我们从一群未经训练的学生网络开始,它们同时学习共同解决任务。每个学生接受两种损失的训练:传统的监督学习损失和模仿损失。模仿损失的目的是使每个学生的类后验概率与其他学生的类概率保持一致。通过这种方式的训练,每个学生在同伴教学的环境中的学习效果明显优于在传统的监督学习环境中独自学习。此外,相互学习的学生网络比通过大型预训练教师进行传统蒸馏训练的学生取得更好的结果。这表明,相互学习策略具有普遍适用性,可以应用于不受模型大小限制且只关注识别精度的应用场景。如果你想了解更多关于Deep Mutual Learning的内容,你可以查看论文\[3\]。 #### 引用[.reference_title] - *1* [【阅读笔记】Deep Mutual Learning](https://blog.csdn.net/qq_29260257/article/details/123401476)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [论文解读《Deep Mutual Learning》](https://blog.csdn.net/qq_46031969/article/details/129321595)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值