Segment Anything专题论文和代码汇总

点PY

已于 2024-07-24 10:57:30 修改

阅读量3.3k

点赞数 4

分类专栏： paper 文章标签：计算机视觉人工智能深度学习

于 2023-05-24 10:25:40 首次发布

本文链接：https://blog.csdn.net/weixin_42990464/article/details/130840972

版权

paper 专栏收录该内容

72 篇文章

订阅专栏

文章目录

2023
2024
参考

2023

Segment Everything Everywhere All at Once

code: https://github.com/ux-decoder/segment-everything-everywhere-all-at-once
摘要：尽管对交互式人工智能系统的需求不断增长，但关于在视觉理解方面的人类-人工智能交互的全面研究却很少，如分割。受基于提示的llm通用接口开发的启发，本文提出了SEEM，一个快速的、交互式的模型，用于在图像中一次性分割一切。SEEM有四个需求： i)通过引入不同类型提示的通用提示引擎，包括点、框、涂鸦、掩码、文本和另一幅图像的参考区域；ii)通过学习联合视觉-语义空间进行视觉和文本提示，动态查询进行推理，如图1所示；iii)通过结合可学习的记忆提示，通过掩膜引导的交叉注意保留对话历史信息；iv)使用文本编码器编码文本查询和掩码标签，用于开放词汇分割。通过全面的实证研究，验证了SEEM在各种分割任务上的有效性。当SEEM学会了在一个统一的表示空间中编写不同类型的提示时，它显示出了概括到看不见的用户意图的强大能力。此外，SEEM可以有效地处理与轻量级提示解码器的多轮交互。
在这里插入图片描述

Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model

code: https://paperswithcode.com/paper/scaling-up-remote-sensing-segmentation

摘要：分段任意事物模型（SAM）的成功证明了以数据为中心的机器学习的重要性。然而，由于标注遥感（RS）图像的困难和高成本，大量有价值的RS数据仍未被标记，特别是在像素级。在本研究中，我们利用SAM和现有的RS目标检测数据集，开发了一个有效的管道来生成一个大规模的RS分割数据集，称为SAMRS。SAMRS在大小上比现有的高分辨率RS分割数据集多出几个数量级，并提供了对象类别、位置和实例信息，可以用于语义分割、实例分割和对象检测，可以单独或组合。我们还从各个方面对SAMRS进行了全面的分析。我们希望它能促进RS分割的研究，特别是在大型模型的预训练中。

Personalize Segment Anything Model with One Shot

code: https://paperswithcode.com/paper/personalize-segment-anything-model-with-one

摘要：在大数据预训练的驱动下，分段任何模型（SAM）已经被证明是一个强大和可提示的框架，彻底改变了分割模型。尽管具有普遍性，但在没有人工提示的情况下为特定的视觉概念定制SAM还没有被探索过，例如，自动将你的宠物狗分割成不同的图像。在本文中，我们提出了一种无训练的SAM个性化方法，称为PerSAM。只给定一个带有参考掩模的图像，PerSAM首先通过位置先验定位目标概念，并通过三种技术将其分割到其他图像或视频中：目标引导注意、目标语义提示和级联后细化。通过这种方式，我们有效地使SAM适应私人使用。为了进一步缓解掩模的模糊性，我们提出了一种有效的一次性微调变体，PerSAM-F。为了冻结整个SAM，我们为多尺度掩模引入了两个可学习的权值，在10秒内只训练2个参数以提高性能。为了证明我们的有效性，我们构建了一个新的分割数据集，PerSeg，用于个性化评估，并测试了我们的方法在视频对象分割具有竞争力的性能。此外，我们的方法还可以增强梦亭，以个性化稳定扩散的文本到图像生成，从而消除背景干扰，更好地进行目标外观学习。

在这里插入图片描述

Segment Anything in Medical Images

code: https://github.com/bowang-lab/MedSAM

摘要：分割一切模型（SAM）已经彻底改变了自然图像分割，但其在医学图像上的性能是有限的。这项工作提出了MedSAM，这是第一次尝试将SAM的成功扩展到医学图像，其目标是创建一个通用的工具，用于分割各种医疗目标。具体来说，我们首先策划了一个大规模的医学图像数据集，包括跨越11种不同模式的超过20万掩膜。然后，我们开发了一种简单的微调方法，使SAM适应于一般的医学图像分割。对21个3D分割任务和9个2D分割任务的综合实验表明，MedSAM在3D和2D分割任务上的平均骰子相似系数（DSC）分别为22.5%和17.6%。

在这里插入图片描述

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

code: https://github.com/aim-uofa/Matcher

摘要：在大规模的预训练支持下，视觉基础模型在开放世界图像理解方面显示出巨大的潜力。尽管单个模型的能力有限，但正确地结合多个这样的模型可以产生积极的协同效应，并发挥其全部潜力。在这项工作中，我们提出了匹配器，它通过集成一个通用的特征提取模型和一个类不可知的分割模型来分割任何东西。天真地连接模型会导致不令人满意的性能，例如，模型倾向于产生匹配的异常值和假阳性的掩模片段。为了解决这些问题，我们设计了一种双向匹配策略，用于精确的交叉图像语义密集匹配，以及一个鲁棒的提示采样器，用于掩模建议的生成。此外，我们提出了一种新的实例级匹配策略。所提出的匹配器方法在各种分割任务中提供了令人印象深刻的泛化性能，所有这些都没有经过训练。例如，它在COCO-20i的一次性语义分割上实现了52.7%的mIoU，超过了目前最先进的专家模型1.6%。此外，我们的可视化结果显示了开放世界的通用性和灵活性。

在这里插入图片描述

Customized Segment Anything Model for Medical Image Segmentation

code: https://github.com/hitachinsk/SAMed
摘要：我们提出了一种医学图像分割的通用解决方案SAMed。与以往的方法不同，SAMed建立在大规模图像分割模型，分段任意模型（SAM）的基础上，探索定制大规模医学图像分割模型的新研究范式。SAMed将基于低秩（LoRA）的微调策略应用于SAM图像编码器，并将其与提示编码器和掩码解码器一起对已标记的医学图像分割数据集进行细化。我们还观察到预热微调策略和AdamW优化器导致SAMed成功收敛和降低损失。与SAM不同，SAMed可以对医学图像进行语义分割。我们训练的SAMed模型在突触多器官分割数据集上达到了81.88 DSC和20.64 HD，这与最先进的方法相当。我们进行了大量的实验来验证我们的设计的有效性。由于SAMed只更新了SAM参数的一小部分，因此它的部署成本和存储成本在实际使用中相当边际。

在这里插入图片描述

CAN SAM COUNT ANYTHING? AN EMPIRICAL STUDY ON SAM COUNTING

code: https://github.com/vision-intelligence-and-robots-group/count-anything

摘要：Meta AI最近发布了“分段任何东西模型”（SAM），该模型因其在类不可知分割方面令人印象深刻的表现而获得了关注。在本研究中，我们探讨了使用SAM进行具有挑战性的少镜头对象计数任务，即通过提供几个边界框来计数一个看不见类别的对象。我们将SAM的性能与其他少量的镜头计数方法进行了比较，发现目前没有进一步的微调，它并不令人满意，特别是对于小的和拥挤的对象。
在这里插入图片描述

SAD: Segment Any RGBD

code: https://github.com/jun-cen/segmentanyrgbd
摘要：分段任意模型（SAM）已经证明了它在分割2D RGB图像的任何部分方面的有效性。然而，在分割RGB图像时，SAM更重视纹理信息，而对几何信息的重视较少。为了解决这一限制，我们提出了分段Any RGBD（SAD）模型，它是专门设计用于直接从图像中提取几何信息的。受到人类通过深度地图的可视化来识别物体的自然能力的启发，SAD利用SAM对渲染的深度地图进行分割，从而提供了增强的几何信息的线索，并减轻了过度分割的问题。我们在我们的框架中进一步包含了开放词汇表的语义分割，从而实现了三维的全视分割。

在这里插入图片描述

Segment Anything in High Quality

code: https://github.com/syscv/sam-hq
摘要：最近的片段任何东西模型（SAM）代表了在扩大分割模型方面的一个巨大飞跃，允许强大的零射击能力和灵活的提示。尽管接受了11亿个口罩的训练，但SAM的口罩预测质量在很多情况下都很差，特别是在处理具有复杂结构的物体时。我们提出了HQ-SAM，为SAM配备精确分割任何物体的能力，同时保持SAM原始的快速设计、效率和零射击的通用性。我们仔细的设计重复并保留了SAM的预训练模型权值，同时只引入最小的附加参数和计算。我们设计了一个可学习的高质量输出令牌，它被注入到SAM的掩模解码器中，并负责预测高质量的掩模。我们不是只将其应用于掩码-解码器特征上，而是首先将它们与早期和最终的ViT特征相融合，以改进掩码细节。为了训练我们引入的可学习参数，我们组成了一个来自多个来源的44K细粒度掩模的数据集。HQ-SAM只在引入的44k掩模的分离集上进行训练，而在8个gpu上只需要4个小时。我们将HQ-SAM在9个不同的下游任务中展示了它的有效性，其中7个在zero-shot传输协议中进行了评估。
在这里插入图片描述

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

code: https://paperswithcode.com/paper/medical-sam-adapter-adapting-segment-anything

SAM近年来在图像分割领域得到了广泛的应用。由于其在全面分割任务中令人印象深刻的能力和基于提示的界面，SAM在社区中引发了密集的讨论。许多著名的专家甚至说，图像分割任务已经被SAM“完成”了。然而，医学图像分割虽然是图像分割家族的一个重要分支，但似乎不包括在“任何东西”分割的范围内。许多个体实验和最近的研究表明，SAM在医学图像分割方面的效果不佳。一个自然的问题是，如何寻找缺失的拼图部分，将SAM的强大分割能力扩展到医学图像分割。在本文中，我们提出了Med SAM适配器，而不是微调MAM适配器，它通过一种简单而有效的自适应技术，将医学特定领域的知识集成到分割模型中。虽然这项工作仍然是少数将流行的NLP技术适配器转移到计算机视觉案例之一，但这个简单的实现在医学图像分割上显示出令人惊讶的良好性能。一种适应SAM的医学图像，我们称之为医学SAM适配器（MSA），在19种医学图像分割任务中表现出优越的性能，包括各种图像模式，包括CT、MRI、超声图像、眼底图像和皮肤镜图像。MSA优于广泛的先进（SOTA）医学图像分割方法，如nnUNet，TransUNet，UNetr，medegdiff，也优于完全精细的MedSAM有相当大的性能差距。
在这里插入图片描述

RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model

code: https://github.com/KyanChen/RSPrompter

摘要：AI研究公司提出的基础部分任何东西模型（SAM）显示出显著的泛化和零射击能力。尽管如此，作为一种与类别无关的实例分割方法，SAM在很大程度上依赖于涉及点、盒子和粗粒度掩码的先前的手动指导。此外，它在遥感图像分割任务上的性能还有待得到充分的探索和证明。本文设计了一种基于SAM基础模型的遥感图像自动实例分割方法。受提示学习的启发，我们提出了一种学习为SAM输入生成适当提示的方法。这使得SAM能够为遥感图像产生语义上可识别的分割结果，我们称之为RSPrompter。基于SAM社区的最新发展，我们还建议了一些正在进行的衍生细分任务，并将其性能与RSPrompter进行比较。在WHU构建、NWPU VHR-10和SSDD数据集上的广泛实验结果验证了我们所提出的方法的有效性。
在这里插入图片描述

SAM Fails to Segment Anything? – SAM-Adapter:Adapting SAM in Underperformed Scenes:Camouflage, Shadow, Medical Image Segmentation, and More

code: https://github.com/tianrun-chen/SAM-Adapter-PyTorch

摘要：大型模型的出现，也被称为基础模型，给人工智能研究带来了重大进展。其中一个模型是分段任意事物（SAM），它是为图像分割任务而设计的。然而，与其他基础模型一样，我们的实验结果表明，SAM可能在某些分割任务中表现失败或表现较差，如阴影检测和隐藏目标检测（隐藏目标检测）。本研究首先为将大型的预训练图像分割模型SAM应用于这些下游任务铺平了道路，即使是在SAM表现较差的情况下。我们提出了SAM适配器，而不是微调SAM适配器，它通过使用简单而有效的适配器将特定领域的信息或视觉提示整合到分割网络中。通过将任务特定的知识与大型模型学习到的一般知识相结合，SAM-适配器可以显著提高SAM在具有挑战性的任务中的性能，如在广泛的实验中所示。我们甚至可以超越特定于任务的网络模型，并在我们测试的任务中达到最先进的性能：伪装对象检测、阴影检测。我们还测试了息肉分割（医学图像分割），并取得了更好的结果。我们相信，我们的工作为在下游任务中利用SAM提供了机会，在各个领域都有潜在的应用，包括医疗图像处理、农业、遥感等。
在这里插入图片描述

SAMScore: A Semantic Structural Similarity Metric for Image Translation Evaluation

code: https://github.com/Kent0n-Li/SAMScore
摘要：图像转换具有广泛的应用，如风格转换和模态转换，通常是生成具有高度真实和忠实的图像。这些问题仍然很困难，特别是在保存语义结构很重要的时候。传统的图像级相似性度量度量的用途有限，因为图像的语义是高级的，并且不受对原始图像的像素级忠实度的严格控制。为了填补这一空白，我们引入了SAMScore，这是一种通用的语义结构相似性度量，用于评估图像翻译模型的忠实度。SAMScore是基于最近的高性能段任意事物模型（SAM），该模型可以以突出的准确性进行语义相似性比较。我们将SAMScore应用于19个图像翻译任务，发现它在所有任务上都能优于所有其他竞争指标。我们设想，SAMScore将被证明是一个有价值的工具，它将有助于推动充满活力的图像翻译领域，通过允许对新的和不断发展的翻译模型进行更精确的评估。
在这里插入图片描述
论文的贡献：

我们提出了一个评估语义结构相似度的通用度量，它解决了目前缺乏任何评估图像翻译任务语义忠实度的问题。
我们表明，在19个图像翻译任务中，SAMScore在评估语义结构相似性方面优于现有的相似度指标，证明了优越的有效性和鲁棒性。

2024

Feature-prompting GBMSeg: One-Shot Reference Guided Training-Free Prompt Engineering for Glomerular Basement Membrane Segmentation

code: https://github.com/SnowRain510/GBMSeg

摘要：通过透射电镜（TEM）评估肾小球基底膜（GBM）对于诊断慢性肾脏疾病（CKD）至关重要。由于缺乏独立于领域的GBM自动分割工具，因此需要一个基于人工智能的解决方案来自动化该过程。在本研究中，我们介绍了GBMSeg，这是一个无训练的框架，旨在通过一次性注释参考来自动分割TEM图像中的GBM。具体来说，GBMSeg首先利用预训练后的基础模型的鲁棒特征匹配能力来生成初始提示点，然后引入一系列跨特征和物理空间的新型自动提示工程技术来优化提示方案。最后，GBMSeg采用了一个类不可知的基础分割模型和生成的提示方案来获得准确的分割结果。在我们收集的2538张TEM图像上的实验结果证实，GBMSeg在无训练的情况下，获得了更好的骰子相似系数（DSC）为87.27%的分割性能，优于最近提出的一次性或少拍方法。总之，GBMSeg引入了一种独特的自动提示框架，在无需训练的情况下实现了鲁棒的领域独立分割性能，特别是推进了医学图像基础分割模型的自动提示。未来的工作包括自动化分段GBM的厚度测量和定量病理指标，这对在临床应用中推进病理评估具有重要的潜力。
在这里插入图片描述

Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification

摘要：个人重新识别（ReID）是一个具有挑战性的问题，重点是在不同的环境中识别个人。然而，以前的ReID方法主要集中在单个域或模态上，如换衣ReID（CC-ReID）和视频ReID。真实世界ReID不受衣服或输入类型等因素的限制。最近的方法强调通过预训练来学习语义，以提高ReID性能，但受到粗粒度、不穿衣服的焦点和预定义区域的阻碍。为了解决这些限制，我们提出了一个受交互式分割模型启发的局部语义提取（LSE）模块。LSE模块捕获细粒度、生物特征和灵活的局部语义，提高了ReID的准确性。此外，我们还引入了语义ReID（SemReID），这是一种预训练方法，它利用LSE来学习有效的语义，以便跨各种ReID域和模式进行无缝传输。对9个ReID数据集的广泛评估显示了SemReID在多个领域上的鲁棒性能，包括换衣ReID、视频ReID、无约束ReID和短期ReID。我们的发现强调了ReID中有效语义的重要性，因为SemReID可以在不需要特定领域设计的情况下实现良好的性能。
在这里插入图片描述

Few-Shot Object Counting With Dynamic Similarity-Aware in Latent Space

code: https://github.com/kadvinj/DSALVANet
摘要：少镜头对象计数（FSOC）使用一些支持信息来估计查询图像中的对象数量。与传统的计数方法不同，FSOC在查询数据和支持数据之间优先考虑更具区别性和广义的相似性度量。这有助于从新类别中计数对象，而不需要创建大量的数据集或进行昂贵的再训练。然而，现有的方法往往依赖于固定的相似度规则，导致了空间信息的丢失。有限的训练数据可以产生稀疏的相似性特征分布，阻碍了模型的学习和处理类内差异较大的对象的能力。在本研究中，我们引入了一种新的FSOC网络DSALAVANet，它由动态相似度感知模块（DSAM）和潜在变量增强模块（LVAM）组成。DSAM为支持特征建立了自适应的度量规则，以在度量空间中寻找相似的区域，以实现精确的目标计数。LVAM利用DSAM的先验相似性知识对密度图的潜在分布进行建模，通过在训练过程中对不同的潜在变量进行采样来提高解码器的鲁棒性。在FSOC基准测试和遥感数据集上进行的大量实验证明了我们的方法的有效性和最先进的性能。该代码和模型可以在DSALVANet上找到。
在这里插入图片描述

Training-free Object Counting with Prompts

code: https://github.com/shizenglin/training-free-object-counter
摘要：本文解决了图像中的物体计数问题。现有的方法依赖于大量的训练数据，并有每个对象的点注释，使得数据收集劳动密集型和耗时。为了克服这一问题，我们提出了一个无训练对象计数器，将计数任务作为一个分割问题。我们的方法利用了分割任何东西模型（SAM），以其高质量的掩模和零镜头分割能力而闻名。然而，SAM的香草掩模生成方法在掩模中缺乏类特定信息，导致计数精度较低。为了克服这一限制，我们引入了一种先验引导的掩模生成方法，该方法将三种先验类型合并到分割过程中，提高了效率和准确性。此外，我们通过提出一种结合参考对象选择和预先引导的掩码生成的两阶段方法来解决通过文本指定的对象计数问题。在标准数据集上的大量实验表明，与基于学习的方法相比，我们的无训练计数器具有竞争性能。本文提出了一种很有前途的解决方案，用于各种场景中的对象计数，而不需要广泛的数据收集和计数特定的训练。
在这里插入图片描述

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

摘要：对象计数是理解场景组成的关键。以前，这项任务由特定类别的方法所主导，这些方法逐渐演变成适应性更强的阶级不可知策略。然而，这些策略有其自己的局限性，例如需要手动范例输入和多个类别的多次传递，导致显著的低效率。本文介绍了一种新的、更实用的方法，允许使用开放词汇表框架同时计数多个对象类别。我们的解决方案，OmniCount，通过使用预先训练过的模型的语义和几何见解来计算用户指定的多个类别的对象，所有这些都不需要额外的训练。OmniCount通过生成精确的对象掩码和通过分段任何东西模型利用点提示来有效地计数。为了评估OmniCount，我们创建了OmniCount-191基准，这是第一个数据集，具有多标签对象计数，包括点、边界框和VQA注释。我们对OmniCount-191的综合评估，以及其他领先的基准测试，证明了omniCount的卓越性能，显著超过现有的解决方案，并预示着对象计数技术的新时代。
在这里插入图片描述

Point, Segment and Count: A Generalized Framework for Object Counting

code: https://github.com/Hzzone/PseCo
摘要：类不可知的对象计数的目的是根据示例框或类名、a.k.a少镜头和零镜头计数对图像中的所有对象进行计数。在本文中，我们提出了一个基于检测的少样本和零样本目标计数的广义框架。我们的框架结合了两个基础模型的优势，而不影响其零射击能力： (i) SAM将所有可能的目标分割为掩模建议，（ii）CLIP对建议进行分类，以获得准确的目标计数。然而，该策略遇到了效率开销和无法定位和区分的小拥挤物体的障碍。为了解决这些问题，我们的框架，称为PseCo，遵循三个步骤：点、分段和计数。具体来说，我们首先提出了一种类不可知的对象定位，为SAM提供准确但最小的点提示，从而不仅降低了计算成本，而且避免了小对象的丢失。
在这里插入图片描述

Follow Anything: Open-set detection, tracking, and following in real-time

code: https://github.com/alaamaalouf/FollowAnything
摘要：跟踪和跟踪感兴趣的对象对一些机器人用例至关重要，从工业自动化到物流和仓库，再到医疗保健和安全。在本文中，我们提出了一个可以实时检测、跟踪和跟踪任何物体的机器人系统。我们的方法被称为遵循任何东西（FAn），是一个开放词汇表和多模态模型——它不局限于在训练时看到的概念，可以在推理时使用文本、图像或点击查询应用于新类。利用来自大规模预训练模型（基础模型）的丰富的视觉描述符，FAn可以通过将多模态查询（文本、图像、点击）与输入的图像序列相匹配来检测和分割对象。这些被检测到和分割的对象跨图像帧跟踪，所有同时考虑到遮挡和物体重新出现。我们在一个真实世界的机器人系统（一个微型飞行器）上演示了FAn，并报告了它在实时控制回路中无缝跟踪感兴趣的对象的能力。FAn可以部署在带有轻量级（6-8 GB）显卡的笔记本电脑上，可以实现每秒6-20帧的吞吐量。
在这里插入图片描述

CONVOLUTION MEETS LORA: PARAMETER EFFICIENT FINETUNING FOR SEGMENT ANYTHING MODEL

code: https://github.com/autogluon/autogluon

摘要：分割一切模型（SAM）是图像分割的基础框架。虽然它在典型情况下表现出显著的零镜头泛化，但当应用于医学图像和遥感等专门领域时，它的优势就会减弱。为了解决这一局限性，本文介绍了Conv-LoRA，一种简单而有效的参数高效的微调方法。通过将超轻量级的卷积参数集成到低秩自适应（LoRA）中，Conv-LoRA可以将与图像相关的归纳偏差注入到普通的ViT编码器中，进一步加强了SAM的局部先验假设。值得注意的是，Conv-LoRA不仅保留了SAM广泛的分割知识，而且恢复了其学习高级图像语义的能力，这受到SAM的前景-背景分割预训练的限制。跨多个领域的不同基准测试的全面实验强调了ConvLoRA在使SAM适应现实世界的语义分割任务方面的优越性。

在这里插入图片描述