沈春华团队新作 | Matcher: 颠覆图像理解，释放CV无限潜力！

最新推荐文章于 2024-11-13 09:26:31 发布

自动驾驶之心

最新推荐文章于 2024-11-13 09:26:31 发布

阅读量197

点赞数

文章标签：计算机视觉深度学习人工智能机器学习神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247546433&idx=4&sn=be8f16c7926d284d90db09aaa1d24bcb&chksm=ceb81b88f9cf929eccdc9f7469efde630fdb53cae829927976a7f7732093c67f6d405bec0ef9&scene=126&sessionid=0

版权

作者 | 派派星编辑 | CVHub

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【占用网络】技术交流群

Title: Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching
Paper: https://arxiv.org/pdf/2305.13310.pdf
Code: https://github.com/aim-uofa/Matcher

导读

本文介绍了一种名为Matcher的方法，它通过集成一个多用途特征提取模型和一个无类别限制的分割模型，能够用一次输入对任何物体进行分割。通过大规模的预训练，视觉基础模型在开放世界图像理解方面展示出了巨大的潜力。虽然单个模型的能力有限，但合理地结合多个这样的模型可以产生正向的协同效应，释放它们的全部潜力。

论文中提到，将这些模型简单连接起来会导致性能不尽人意，例如模型容易生成匹配的异常值和误报的分割碎片。为了解决这些问题，作者设计了一个双向匹配策略，用于准确的跨图像语义密集匹配，以及一个稳健的提示采样器，用于生成分割建议。

此外，本文还提出了一种新颖的实例级匹配策略，用于可控的分割合并。Matcher 方法在各种分割任务中展现了令人印象深刻的泛化性能，而无需训练。例如，在COCO-20i数据集上进行一次性语义分割，它达到了52.7%的mIoU，超过了最先进的专家模型1.6%。此外，论文中的可视化结果展示了在自然场景中的开放世界泛化性和灵活性。

动机

在先前的工作中，大规模预训练的视觉基础模型在计算机视觉领域取得了巨大的成功。例如，大家很熟悉的CLIP、DINOv2和SAM等方法展示了在零样本或少样本情况下的强大图像理解能力。然而，这些模型在开放世界图像理解方面的能力还存在一定的局限性。

本文提出的 Matcher 方法通过集成多个基础模型，实现了在各种分割任务中令人印象深刻的泛化性能，而无需进行训练。与其他方法相比，Matcher 具有以下优势：

强大的泛化能力：Matcher在多样的分割任务上展现了出色的泛化性能。它结合了不同的基础模型，充分利用它们的优势，提高了分割质量和开放集泛化性。

无需训练：Matcher方法不需要针对特定任务进行训练，而是通过特征匹配和分割合并实现了高效的分割。这使得Matcher能够适用于少样本或零样本情况下的分割任务，并且具有广泛的适用性。

实用性和灵活性：Matcher方法在实际应用中展现了出色的实用性和灵活性。它能够在自然场景中对任何物体进行一次性分割，并且具有可控的分割输出，可以根据需求选择合并的分割结果数量。

因此，Matcher 方法通过集成多个基础模型，可以实现更强大的泛化能力和高效的分割，具备广泛的应用前景。

方法

Matcher 是一个无需训练的框架，通过整合一个通用的特征提取模型（如DINOv2、CLIP和MAE）和一个无关类别的分割模型（SAM），实现对任何物体的一次性分割。给定参考图像和对应的掩码，Matcher 能够对具有相同语义的目标图像进行物体或部分分割。

Matcher的概述如图1所示。该框架由三个组成部分组成：

对应关系矩阵提取（Correspondence Matrix Extraction, CME）
提示生成（Prompts Generation, PG）
可控掩码生成（Controllable Masks Generation, CMG）

首先，Matcher 通过计算源图像和目标图像的图像特征之间的相似度，提取出一个对应关系矩阵。然后，进行基于图块的匹配，随后从匹配的点中采样出多组提示（包括点和框），这些提示作为输入传递给 SAM，用于生成掩码候选区域。最后，作者对参考掩码和掩码候选区域进行实例级的匹配，选择高质量的掩码。接下来将详细介绍这三个组成部分。

CME

在对应关系矩阵提取阶段，Matcher 使用预训练的图像编码器提取参考图像和目标图像的特征，并计算它们之间的图块级别相似性，以找到目标图像上与参考掩码最匹配的区域。这样可以得到一个描述语义密度匹配的对应关系矩阵。

PG

在提示生成阶段，Matcher 利用对应关系矩阵生成高质量的点和框提示，以提高分割的准确性和连贯性。这个过程包括双向图块匹配和多样化的提示采样，消除匹配异常值，并鼓励生成多样性的掩码候选区域。

CMG

最后，在可控掩码生成阶段，Matcher 通过实例级的匹配和度量，选择高质量的掩码候选区域，并将它们合并得到最终的目标掩码。它使用 Optimal Transport（OT）问题和 Earth Mover's Distance（EMD）计算掩码内部的语义特征之间的结构距离，以确定掩码的相关性。同时，Matcher 还提出了纯度和覆盖度等度量指标，用于评估掩码候选区域的质量，并通过设定阈值来过滤错误的掩码片段。最后，通过合并不同数量的掩码，Matcher 可以生成可控制的掩码输出，用于目标图像中具有相同语义的实例。

实验

在实验部分，作者对 Matcher 进行了多项实验来评估其在不同任务上的性能。首先，在一次性语义分割任务上，文中评估了 Matcher 在COCO20i、FSS-1000和LVIS-92i数据集上的表现。实验结果表明，Matcher在这些任务上取得了竞争性的性能，并超过了专门模型和通用模型的表现。

此外，针对一次性目标部分分割任务创建了PASCAL-Part和PACO-Part数据集，并评估了Matcher在这两个任务上的性能。实验结果显示，Matcher在这些任务上显著优于其他方法，并表现出对目标部分细分的强大能力。

另一方面，在视频目标分割任务中，作者额外评估了Matcher在DAVIS 2017 val和DAVIS 2016 val数据集上的性能。实验结果同样表明，Matcher 在这些任务上能够与训练有视频数据的模型取得相媲美的性能，并且优于没有视频训练的模型。

总的来说，我们可以从这些结果看出，Matcher 在各项实验中展现了优异的性能，无需进行任何训练即可实现在不同任务上的准确分割和细分能力，展现出广泛的应用潜力。大家有兴趣的可以将其应用或扩展到其它任务上，应该是一个不错的 topic。

总结

本文介绍了 Matcher，一个无需训练的框架，用于解决各种少样本分割任务。Matcher 将通用特征提取模型和无类别分割模型进行合理组合，实现了正面的协同效应，并呈现出超越单个模型的复杂能力。引入的通用组件，如双向匹配、鲁棒的提示采样器和实例级匹配，能够有效释放这些基础模型的能力。后续的实验也证明了 Matcher 在各种少样本分割任务上的强大性能，可视化结果展示了其在真实场景中的开放世界泛化性和灵活性。

然而，尽管 Matcher 在语义级别分割（例如一次性语义分割和一次性目标部分分割）方面表现出令人印象深刻的性能，但由于继承自图像编码器的实例级匹配相对有限，它在实例分割方面的性能受到一定限制。不过，可比较的视频目标分割性能和可控的掩码输出可视化结果表明，Matcher 在实例级分割方面具有潜力。

（一）视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

视频官网：www.zdjszx.com

（二）国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！