CVPR 2025 MINIMA：首个通用多模态图像匹配架构（模型、数据已全部开源）

最新推荐文章于 2025-04-23 10:22:37 发布

转载最新推荐文章于 2025-04-23 10:22:37 发布

· 1.1k 阅读

版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247627988&idx=1&sn=90b17ede0bc5e76eba46f4558ef2b1cc&chksm=97007370a2a849513a6ed0f350743f28c4d07d1aa116c4dd7e03c9238d9e8a034c9df1742947&scene=126&sessionid=0

关注公众号，发现CV技术之美

论文信息：

论文链接：https://arxiv.org/abs/2412.19412
代码链接：https://github.com/LSXI7/MINIMA
在线demo：https://huggingface.co/spaces/lsxi77777/MINIMA

摘要：

跨视图、跨模态图像匹配是多模态融合感知中的核心问题之一，具有重要实际意义。然而，由于不同成像系统或风格所引发的模态差异，该任务面临严峻挑战。现有方法通常专注于提取特定模态的不变特征，并依赖有限规模的数据集进行训练，其泛化能力十分有限。

为解决上述难题，本文提出一种统一的多模态图像匹配框架——MINIMA。该方法摒弃了复杂模块设计的传统思路，转而从数据扩增的角度出发，旨在全面提升模型的通用性能。

为此，我们设计了一种简洁高效的数据引擎，能够生成包含多种模态、丰富场景以及精确匹配标签的大规模数据集。具体而言，通过引入生成模型，我们将廉价且易于获取的RGB匹配数据扩展至其他模态类型，从而有效继承原始RGB数据集中丰富的匹配标签和多样性。基于此，我们构建了大规模合成数据集MD-syn，填补了当前多模态图像匹配领域的数据空白。

实验结果表明，借助MD-syn数据集，现有的匹配模型能够轻松获得强大的跨模态匹配能力。我们在涵盖视觉、遥感、医学等多个领域的19种跨模态匹配任务中进行了全面测试，结果显示MINIMA框架可显著提升基准方法的综合性能及零样本泛化能力，最高提升幅度可达98%。此外，在某些模态任务上，我们的方法甚至超越了特定模态的专有方法。