沈春华团队新作 | Matcher: 颠覆图像理解,释放视觉任务的无限潜力!

本文首发于微信公众号 CVHub,严禁私自转载或售卖到其他平台,违者必究。

Title: Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Paper: https://arxiv.org/pdf/2305.13310.pdf

Code: https://github.com/aim-uofa/Matcher

导读

本文介绍了一种名为Matcher的方法,它通过集成一个多用途特征提取模型和一个无类别限制的分割模型,能够用一次输入对任何物体进行分割。通过大规模的预训练,视觉基础模型在开放世界图像理解方面展示出了巨大的潜力。虽然单个模型的能力有限,但合理地结合多个这样的模型可以产生正向的协同效应,释放它们的全部潜力。

论文中提到,将这些模型简单连接起来会导致性能不尽人意,例如模型容易生成匹配的异常值和误报的分割碎片。为了解决这些问题,作者设计了一个双向匹配策略,用于准确的跨图像语义密集匹配,以及一个稳健的提示采样器,用于生成分割建议。

此外,本文还提出了一种新颖的实例级匹配策略,用于可控的分割合并。Matcher 方法在各种分割任务中展现了令人印象深刻的泛化性能,而无需训练。例如,在COCO-20i数据集上进行一次性语义分割,它达到了52.7%的mIoU,超过了最先进的专家模型1.6%。此外,论文中的可视化结果展示了在自然场景中的开放世界泛化性和灵活性。

动机

在先前的工作中,大规模预训练的视觉基础模型在计算机视觉领域取得了巨大的成功。例如,大家很熟悉的CLIPDINOv2SAM等方法展示了在零样本或少样本情况下的强大图像理解能力。然而,这些模型在开放世界图像理解方面的能力还存在一定的局限性。

本文提出的 Matcher 方法通过集成多个基础模型,实现了在各种分割任务中令人印象深刻的泛化性能,而无需进行训练。与其他方法相比,Matcher 具有以下优势:

强大的泛化能力:Matcher在多样的分割任务上展现了出色的泛化性能。它结合了不同的基础模型,充分利用它们的优势,提高了分割质量和开放集泛化性。

无需训练:Matcher方法不需要针对特定任务进行训练,而是通过特征匹配和分割合并实现了高效的分割。这使得Matcher能够适用于少样本或零样本情况下的分割任务,并且具有广泛的适用性。

实用性和灵活性:Matcher方法在实际应用中展现了出色的实用性和灵活性。它能够在自然场景中对任何物体进行一次性分割,并且具有可控的分割输出,可以根据需求选择合并的分割结果数量。

因此,Matcher 方法通过集成多个基础模型,可以实现更强大的泛化能力和高效的分割,具备广泛的应用前景。

方法

Matcher 是一个无需训练的框架,通过整合一个通用的特征提取模型(如DINOv2、CLIP和MAE)和一个无关类别的分割模型(SAM),实现对任何物体的一次性分割。给定参考图像和对应的掩码,Matcher 能够对具有相同语义的目标图像进行物体或部分分割。

Matcher的概述如图1所示。该框架由三个组成部分组成:

  • 对应关系矩阵提取(Correspondence Matrix Extraction, CME)
  • 提示生成(Prompts Generation, PG)
  • 可控掩码生成(Controllable Masks Generation, CMG)

首先,Matcher 通过计算源图像和目标图像的图像特征之间的相似度,提取出一个对应关系矩阵。然后,进行基于图块的匹配,随后从匹配的点中采样出多组提示(包括点和框),这些提示作为输入传递给 SAM,用于生成掩码候选区域。最后,作者对参考掩码和掩码候选区域进行实例级的匹配,选择高质量的掩码。接下来将详细介绍这三个组成部分。

CME

在对应关系矩阵提取阶段,Matcher 使用预训练的图像编码器提取参考图像和目标图像的特征,并计算它们之间的图块级别相似性,以找到目标图像上与参考掩码最匹配的区域。这样可以得到一个描述语义密度匹配的对应关系矩阵。

PG

在提示生成阶段,Matcher 利用对应关系矩阵生成高质量的点和框提示,以提高分割的准确性和连贯性。这个过程包括双向图块匹配和多样化的提示采样,消除匹配异常值,并鼓励生成多样性的掩码候选区域。

CMG

最后,在可控掩码生成阶段,Matcher 通过实例级的匹配和度量,选择高质量的掩码候选区域,并将它们合并得到最终的目标掩码。它使用 Optimal Transport(OT)问题和 Earth Mover’s Distance(EMD)计算掩码内部的语义特征之间的结构距离,以确定掩码的相关性。同时,Matcher 还提出了纯度和覆盖度等度量指标,用于评估掩码候选区域的质量,并通过设定阈值来过滤错误的掩码片段。最后,通过合并不同数量的掩码,Matcher 可以生成可控制的掩码输出,用于目标图像中具有相同语义的实例。

实验

在实验部分,作者对 Matcher 进行了多项实验来评估其在不同任务上的性能。首先,在一次性语义分割任务上,文中评估了 Matcher 在COCO20i、FSS-1000和LVIS-92i数据集上的表现。实验结果表明,Matcher在这些任务上取得了竞争性的性能,并超过了专门模型和通用模型的表现。

此外,针对一次性目标部分分割任务创建了PASCAL-Part和PACO-Part数据集,并评估了Matcher在这两个任务上的性能。实验结果显示,Matcher在这些任务上显著优于其他方法,并表现出对目标部分细分的强大能力。

另一方面,在视频目标分割任务中,作者额外评估了Matcher在DAVIS 2017 val和DAVIS 2016 val数据集上的性能。实验结果同样表明,Matcher 在这些任务上能够与训练有视频数据的模型取得相媲美的性能,并且优于没有视频训练的模型。

总的来说,我们可以从这些结果看出,Matcher 在各项实验中展现了优异的性能,无需进行任何训练即可实现在不同任务上的准确分割和细分能力,展现出广泛的应用潜力。大家有兴趣的可以将其应用或扩展到其它任务上,应该是一个不错的 topic。

总结

本文介绍了 Matcher,一个无需训练的框架,用于解决各种少样本分割任务。Matcher 将通用特征提取模型和无类别分割模型进行合理组合,实现了正面的协同效应,并呈现出超越单个模型的复杂能力。引入的通用组件,如双向匹配、鲁棒的提示采样器和实例级匹配,能够有效释放这些基础模型的能力。后续的实验也证明了 Matcher 在各种少样本分割任务上的强大性能,可视化结果展示了其在真实场景中的开放世界泛化性和灵活性。

然而,尽管 Matcher 在语义级别分割(例如一次性语义分割和一次性目标部分分割)方面表现出令人印象深刻的性能,但由于继承自图像编码器的实例级匹配相对有限,它在实例分割方面的性能受到一定限制。不过,可比较的视频目标分割性能和可控的遮罩输出可视化结果表明,Matcher 在实例级分割方面具有潜力。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。关注微信公众号,欢迎参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值