多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)

<Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities> 

论文地址:https://arxiv.org/abs/2401.14405

项目网页:https://ailab-cvc.github.io/M2PT/

开源代码:https://github.com/AILab-CVC/M2PT

讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

图1:与使用对齐良好的多模态数据的已知范式相比,本文关注的是数据样本来自多个模态但不相关的场景,这是文献中的一个开放问题。 

一、核心概念

  • 目标模态与辅助模态:目标模态是指我们想要改进性能的模型的模态,例如图像。辅助模态则是与目标模态不相关的其他模态的数据,例如音频或点云数据。
  • 多模态路径(Multimodal Pathway):这是一种连接目标模态Transformer和辅助模态Transformer的结构,允许目标模态数据通过两个模型的组件进行处理,从而获得两种模态的序列到序列建模能力。
  • 跨模态重参数化(Cross-Modal Re-parameterization):这是一种技术手段,利用辅助模态的Transformer块,无需任何推理成本即可提升目标模态的性能。

图2:(左) 多模态通路变压器(M2PT)框架。以点云和图像模态为例。transformer的常用做法遵循相同的流程:使用1)标记器将输入数据转换为序列,2)转换器块处理序列,3)磁头解码序列。通过建立不同模态组件之间的路径来升级序列到序列建模,以便处理特定模态的令牌可以利用与另一模态训练的转换块。

        (中) M2PT的概念设计,其中路径是通过让目标模型中的线性层(包括注意力块中的查询/键/值/投影层和FFN块中的线性层)与辅助模型中的对应层合作来实现的。

        (右) 跨模态重参数化通过将目标模型的权重与辅助模型的权重重新参数化,引入边际训练成本,完全没有推理成本,有效地实现了M2PT。

        本文提出了一个简单而有效的M2PT实现,其中关键是连接两个模型的路径的具体实现。如上所述,由于通用建模能力,不同模态上的transformer可能具有不同的标记器,但它们的主体(即transformer块)可能具有相同的结构。对于与主体结构相同的目标模型和辅助模型,前者主体中的一层在后者中应该有对应的一层。例如,目标模型的第9块中的Query层的对应物,即辅助模型中的第9个Query层应该存在,并且它们在两个模型中扮演类似的角色。考虑到这一点,通过将目标模型的transformer块中的每个线性层与辅助模型中的对应层进行扩充来建立两个模型之间的连接。在这样的概念设计中,让两个层接受相同的输入并将它们的输出相加,如图2(中间)所示。

图3:M2PT在图像、视频、点云和音频这四种模式上带来了一致的改进。这些指标分别是ImageNet-1K精度、Kinetics-400精度、PartNet mIoU和AudioSet精度。这些数字分别代表了M2PT模型相对于使用mastyle方法[22、23、30、49]在四种模式上预训练的基线模型的性能的改进百分比。 

        本文尝试了图像、视频、点云和音频模式。图3显示了M2PT在四种模式中一致带来的相对改进。这些结果表明,变压器中序列对序列建模的模态互补知识是存在的。

        作为早期的探索,我们的实证研究证实,这种改进不仅仅是由于更多的参数,并且表明这种模态互补知识可能与一般处理分层表示的能力有关。抽象层次以多种形式存在,概念从低级到高级,这可以解释所学知识的普遍性。换句话说,当转换器使用图像进行训练时,它既学习(能力a)如何理解图像,又学习(能力B)如何将标记从低级模式转换为高级模式,而不假设它们最初来自图像。

        同时,由于另一个Transformer正在用音频数据进行预训练,它对音频学习了不同的“能力a”和相似的“能力B”,从而可以帮助前面提到的Transformer进行图像识别。


二、方法论

  1. 模态特定的分词器和任务特定的头部:如同常规的Transformer模型,使用模态特定的分词器来处理输入数据,将其转换为序列(即tokens),并使用任务特定的头部来进行最终的任务(如分类、检测等)。

  2. 利用辅助模态的知识:通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来,目标模态可以通过跨模态重参数化技术,利用辅助模态模型的权重来增强其性能。


三、重要性与贡献

  • 开拓新领域:这篇论文探索了一个较少被研究的领域——如何利用与目标模态不相关的数据来改进模型性能,这在以往的研究中是一个未被充分探讨的问题。
  • 通用模型能力的展示:这项工作进一步证明了Transformer的通用序列到序列建模能力,即使是在跨模态的情况下也能够有效。

四、结论

        这篇论文提出的多模态路径方法为利用跨模态数据来改进特定模态的Transformer模型提供了一种新的视角和方法。通过引入辅助模态的知识,即使这些数据与目标任务不直接相关,也能显著提升目标模态的模型性能。这不仅展示了Transformer的强大通用性,也为未来的多模态学习研究开辟了新的方向。

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
CVPR 2022是计算机视觉和模式识别领域的顶级会议,而多模态研究是其重要的研究方向之一。多模态处理涉及处理和融合来自不同感知模态(例如图像、语音、文本等)的信息,以提高对现实场景的理解能力。 在CVPR 2022多模态方向的研究中,一些关键的趋势和话题将得到关注。首先,基于深度学习的多模态方法将继续发展,因为其在处理多模态数据中的高级特征表示方面取得了显著成果。这些方法使用强大的神经网络架构,能够跨不同感知模态获取数据并实现融合。此外,对于多模态研究的探索还将进一步推动更加复杂和深层次的网络设计,以实现更好的融合效果。 其次,跨模态学习也是CVPR 2022多模态研究的重要方向之一。这项研究旨在利用不同模态之间的共享知识,通过迁移学习和领域自适应等技术,从一个模态中的标记数据中学习到其他未标记模态的有效表达。这对于那些有限标记数据模态研究任务非常有价值。 最后,CVPR 2022多模态方向还将关注各种真实应用场景中的挑战和问题。例如,多模态医学图像处理和分析领域的研究,可以辅助医生进行更准确的诊断和疾病检测。另外,多模态文本和图像生成方面的研究,也能够推动现实世界中的创造性设计和内容生成。 总之,CVPR 2022多模态方向的研究将继续推动计算机视觉和模式识别领域的发展。通过深度学习、跨模态学习以及应用于不同领域的研究,我们可以期待在多模态数据处理和融合方面取得更多突破和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程日记✧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值