NeurIPS 2023 | 连接多模态对比表征:无需配对数据的高效对比表征学习方法

论文提出了一种新的多模态对比表征学习方法C-MCR,该方法无需配对数据,通过连接已有对比表征空间,实现了在音频-视觉和3D点云-文本等任务上的高效学习和优秀性能。
摘要由CSDN通过智能技术生成

9699e1f415d95da54e49e0f93a2690c8.gif

©PaperWeekly 原创 ·作者 | 王泽寒

单位 | 浙江大学

研究方向 | 多模态学习

d3679703b61a7f7fe78aaf87699b3762.png

论文地址:

https://arxiv.org/abs/2305.14381

项目主页:

https://c-mcr.github.io/C-MCR/

模型&代码地址:

https://github.com/MCR-PEFT/C-MCR

多模态对比表示(multi-modal contrastive representation, MCR)旨在将不同的模态输入编码到一个语义对齐的共享空间中。随着 CLIP 模型在视觉-语言领域的巨大成功,越来越多的研究这开始为更多的模态学习对比表征。然而,尽管这些方法在多模态理解、生成等诸多领域取得了巨大的成功,对于大规模高质量数据对的依赖严重限制了多模态对比表征的进一步发展。对于很多模态组合,大规模的高质量的配对数据是难以获得的。

本文提出了连接多模态对比表示(C-MCR),一种无需配对数据且训练极为高效的多模态对比表征学习方法。我们的方法在不使用任何配对数据的情况下,学习到了强大的 audio-visual 和 3D-text 表征,并在 audio-visual retrieval、audio-visual source localization、3D point cloud classification 等多个任务上取得了 state-of-the-art 效果。

b9a1ff261b7da383a2984c686ad2d32e.png

介绍

多模态对比表示(MCR)旨在将来自不同模态的输入映射到共享的表示空间中。由于 CLIP 在视觉-语言领域的众多下游任务上展示出的令人印象深刻的泛化性能,学习更多模态间对比表征已成为一个热度研究问题,吸引了越来越多的关注。

然而,多模态对比表示的泛化能力主要受益于大量的高质量的数据对的可行性。这就严重限制了对比表征在缺乏大规模高质数据的模态上的发展。例如,音频-视觉数据对间的语义关联性往往是模糊的,3D 点云和文本的配对数据则是稀少的难以获得的。

不过,我们观察发现,这些缺乏直接配对数据的模态,往往和同一个中间模态具有大量高质量配对数据。例如,对于音频-视觉领域,虽然音频-视觉数据质量不可靠,但音频-文本和文本-图像的配对数据是充足且语义明确的。同样,虽然 3D 点云-文本配对数据很少,但 3D 点云-图像和图像-文本数据是广泛存在的。这些中间模态可以起到一个枢纽作用,来构建起更多模态的关联。

考虑到这些有着充足配对数据的模态间往往已经存在成熟的对比表征。本文提出了连接多模态对比表示(C-MCR),一种无需配对数据的训练高效的多模态对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值