NeurIPS 2023 | 基于多模态统一表达的跨模态泛化

最新推荐文章于 2025-01-09 10:15:00 发布

PaperWeekly

最新推荐文章于 2025-01-09 10:15:00 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134237270

版权

本文提出了跨模态泛化任务，通过多模态统一表达实现模型知识迁移，解决了现有方法在模态对齐上的局限。采用对偶跨模态信息解偶和多模态EMA技术，实现不同模态信息的细粒度统一，成功应用于音视频、音频文本等多模态任务，提升跨模态泛化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 夏炎

学校 | 浙江大学

研究方向 | 多模态

论文标题：

Achieving Cross Modal Generalization with Multimodal Unified Representation

模型&代码地址：

https://github.com/haihuangcode/CMG

在本文中，我们提出了跨模态泛化任务，旨在将模型从已知模态中学到的知识，迁移到未知模态上，而实现的关键在于通过对大量成对数据的预训练实现多模态统一表达。之前的方法在多模态统一表达领域取得了不错的进展，但是这些方法都是在粗粒度层面进行对齐，或者基于不同模态的信息能够一一对应的前提下。然而在实际情况中，成对的模态很难完全实现完全一致的信息对齐。

因此，我们提出了对偶跨模态信息解偶和多模态 EMA，让不同模态互相作为对方模态的监督信号，将来自不同模态且具有相同语义的信息映射到一起，在细粒度层面上实现多模态输入序列的统一表达。我们在音视频、音频文本，以及甚至在音频-视频-文本三个模态上都进行了统一表达，并在下游实现了各种任务的跨模态泛化，例如跨模态事件分类、定位，跨模态检索，基于查询的视频分割，以及跨数据集的泛化任务。

介绍

随着多模态信息的爆炸性增长，如何处理这些繁杂的信息成为一个急需解决的问题。多模态学习逐渐成为深度学习中一个重要的组成部分，在图像/视频/音视频问答，query-based 图像/视频分割，多模态检索等领域取得了重要的进步。然而，对不同模态的标注难度是不一样的，并且很多标注场景中只能获取少数几个模态，缺乏其他模态，在迁移应用中难免会有很多局限。

然而，成对的无标注的多模态数据往往是容易获得且大量的（例如互联网上存在的大量图像 - caption 对，视频中往往包含了与之对应的音频等）。因此在本文中，我们提出了跨模态泛化，研究如何从这些成对无标注的多模态数据中学到一致性，当下游任务中只有一个模态有标注时，能实现在其他模态中实现的 zero-shot 的性能。

近年来，研究者们开始研究如何在模型中将各种各样的多模态信息映射到统一的语义空间中，这些工作分为隐式映射和显式映射两种。在隐式层面上，一些方法使用一个 modal-agnostic 的 Encoder 来表征不同的模态，然而这些隐式的表达只能在隐空间上将不同的模态靠近，难以解决跨模态泛化任务。

在显式层面上，一些工作开始研究如何用一个统一的 codebook 或者 prototype 来映射不同的模态，但是这些工作只能将模态向量压缩成一个单个向量后再进行映射，或者