【论文泛读】What Makes Training Multi-modal Classification Networks Hard?

论文题目:What Makes Training Multi-modal Classification Networks Hard?
时间:2020
来源:CVPR
论文链接:点击跳转
论文代码:点击跳转


是什么让训练多模态分类网络变得困难?

摘要

研究目的

  理论上多模态网络接收更多信息,因此它应该匹配或优于其单模态对应物。然而实验中,在不同模式组合以及不同任务和视频分类基本都观察到了相反的情况:最好的单模网络通常优于多模网络。

问题原因

导致这种性能下降的两个主要原因:

  1. 多模态网络由于容量增加通常容易过度拟合
  2. 不同的模态以不同的速率过拟合和泛化,因此用单一优化策略联合训练它们是次优的。

解决问题

提出梯度混合的技术来解决这两个问题,该技术根据它们的过度拟合行为计算模态的最佳混合。

实验结果

  我们证明了梯度混合在避免过度拟合方面优于广泛使用的baseline,并在包括人类动作识别、以自我为中心的动作识别和声学事件检测在内的各种任务上实现了最先进的准确性。

简介

  问题似乎是过拟合的:多模态网络具有更高的训练精度和更低的验证精度。后期视听(A+RGB)融合网络的参数几乎是单模态网络的两倍,过度拟合可能是由参数数量增加引起的。

现有两种方法可以解决这个问题:

  1. 可以考虑诸如 dropout预训练提前停止等解决方案以减少过拟合
  2. 架构缺陷,我们通过串联门控融合进行中级融合实验,尝试了 Squeeze-and-Excitation (SE)门和非局部 (NL) 门。

  值得注意的是,这些都没有提供有效的解决方案。对于每种方法,我们在图 1 中记录了 Kinetics 上的最佳视听结果。预训练无法提供改进,并且提前停止往往会欠拟合 RGB模态。 Mid-concat 和 dropout 仅对 RGB 模型提供适度的改进。我们注意到 dropout 和 mid-concat(与后连接相比,参数减少 37%)比后连接提高了 1.5% 和 1.4%,证实了后连接的过度拟合问题。

  我们如何将这些实验与以前的多模式成功相协调?多模态网络已经成功地在包括声音定位 [59]、图像-音频对齐 [5] 和视听同步 [37, 34] 在内的任务上进行了联合训练。然而,这些任务不能用单一模态来执行,因此没有单模态基线,本文中发现的性能下降不适用。在其他工作中,通过使用预训练的单模态特征完全避免了联合训练。好的例子包括用于视频分类 [41, 49, 19, 12] 和图像文本分类 [6, 31] 的双流网络。这些方法不会联合训练多种模态,因此它们也没有可比性,并且由于独立训练,它们的准确性可能不是最佳的。

我们在本文中的贡献包括:
• 我们凭经验证明了多模态网络联合训练中过度拟合的重要性,并确定了导致该问题的两个原因。我们展示了这个问题是架构不可知的:不同的融合技术也可能遭受同样的过拟合问题。
• 我们提出了一个度量来定量地理解问题:过度拟合泛化比 (OGR),具有理论和经验的依据。
• 我们提出了一种新的训练方案,该方案通过多个监督信号的最佳混合(在某种意义上,我们在下面进行了精确)最小化了 OGR。这种 GradientBlending (G-Blend) 方法在消融方面取得了显着的进步,并通过结合音频和视觉信号在包括 Kinetics、EPIC-Kitchen 和 AudioSet 在内的基准测试中实现了最先进的 (SoTA) 精度。

  我们测试G-Blendisask不可知、架构不可知,并适用于其他场景(例如,在[39]中用于将点云与RGB相结合以进行3D对象检测)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪里摸鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值