SAM分割一切系列相关论文梳理

  • SAM原作参考SAM解读
  • SAM微调参考SAM微调
  • 综合看下来与SAM相关的论文有很多,但对SAM本身进行优化的工作很少,大部分是结合SAM对具体场景的适配或优化,或实现功能的扩展例如增加mask的类别实现实例分割。还有很多将SAM扩展到可以用于3D对象的分割,本文不做关注因此未列出。

SAM相关论文

SAM优化或功能拓展

[Medical Image Analysis2025]UN-SAM: Domain-Adaptive Self-Prompt Segmentation for Universal Nuclei Images - 通过自动生成掩码prompt减轻标注工作,实现细胞通用分割

paper:https://www.sciencedirect.com/science/article/abs/pii/S1361841525001549
code:https://github.com/CUHK-AIM-Group/UN-SAM
SAM在自然场景中展现出卓越的性能,并对医学成像表现出令人瞩目的适应性。尽管有这些优势,但依赖劳动密集型的手动标注作为分割提示严重阻碍了其临床应用,特别是对于包含大量细胞的细胞核图像分析,密集的手动提示并不现实。为了在保留优势的同时克服当前SAM方法的局限性,我们提出了用于通用细胞核分割的域自适应自提示SAM框架(UN - SAM),通过提供一种在不同领域都具有卓越性能的全自动解决方案。具体而言,为了消除对每个细胞核进行提示标注所需的大量人力,我们设计了一个多尺度自提示生成(SPGen)模块,通过自动生成高质量的掩码提示来指导分割任务,从而彻底改变临床工作流程。此外,为了在各种细胞核图像中发挥SAM的能力,我们设计了一个域自适应调谐编码器(DT - Encoder),将视觉特征与领域通用和领域特定知识无缝融合,并进一步设计了一个域查询增强解码器(DQ - Decoder),通过利用可学习的域查询在不同的细胞核领域进行分割解码。大量实验证明,我们的UN - SAM在细胞核实例分割和语义分割方面超越了现有技术,尤其是在未知细胞核领域的泛化能力。

[NIPS2023]Segment Everything Everywhere All at Once - 比SAM交互能力更强

威斯康星+微软

  • 比SAM更丰富的交互方式,例如涂鸦、文本+视觉提示组合等。
    paper:https://arxiv.org/pdf/2304.06718
    code:https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once
    在这里插入图片描述
    在这项工作中,我们提出了SEEM——一种可提示的交互式模型,能够对图像中任意位置的所有物体进行一次性分割,如图1所示。在SEEM中,我们设计了一种新颖的解码机制,支持对所有类型分割任务的多样化提示,旨在构建一个行为类似大型语言模型(LLM)的通用分割接口。具体而言,SEEM的设计遵循四个核心原则:i)通用性。我们引入新型视觉提示以统一不同空间查询(包括点、框、涂鸦和掩码),并可进一步泛化到不同参考图像;ii)组合性。我们学习文本与视觉提示的联合视觉语义空间,助力各类分割任务所需的两种提示类型的动态组合;iii)交互性。我们在解码器中融入可学习记忆提示,通过解码器到图像特征的掩码引导交叉注意力来保留分割历史;iv)语义感知。我们使用文本编码器将文本查询和掩码标签编码到同一语义空间,实现开放词汇分割。我们通过全面的实证研究验证了SEEM在多种分割任务中的有效性。值得注意的是,单个SEEM模型在9个数据集上的交互式分割、通用分割、指称分割和视频目标分割任务中均取得了具有竞争力的性能,且仅需最少1/100的监督量。此外,SEEM展现出对新提示或其组合的卓越泛化能力,使其成为现成的通用图像分割接口。
PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT - 1个参考样本实现SAM的指定物体分割

香港中文大学、上海人工智能实验室
paper:https://arxiv.org/pdf/2305.03048
code:https://github.com/ZrrSkywalker/Personalize-SAM

在大数据预训练的推动下,Segment Anything Model(SAM)已被证明是一个强大的可提示框架,彻底革新了图像分割领域。尽管SAM具有通用性,但针对特定视觉概念在无需人工设计提示的情况下对其进行定制化的研究仍较为匮乏——例如从大量图像中自动分割出用户的宠物狗。本文提出了一种无需训练的SAM个性化方法PerSAM。仅需单样本数据(即一张带有参考掩码的图像),我们首先为新图像中的目标概念获取正负位置先验。然后,借助目标视觉语义,通过两项核心技术赋予SAM个性化目标分割能力:目标引导注意力机制与目标语义提示策略。通过这种方式,我们能够在完全无需训练的前提下,高效地将通用型SAM定制为专用模型。为进一步解决分割尺度模糊问题,我们提出了高效单样本微调变体PerSAM-F:在冻结整个SAM模型的基础上,引入尺度感知微调技术聚合多尺度掩码,仅需调整2个参数(耗时10秒)即可提升性能。为验证方法有效性,我们构建了全新数据集PerSeg用于个性化目标分割评估,并在多个单样本图像与视频分割基准上进行测试。此外,我们提出利用PerSAM改进DreamBooth实现个性化文本到图像合成,通过减轻训练集背景干扰,该方法在目标外观生成质量和文本提示保真度上均展现出优势。相关代码已开源至https://github.com/ZrrSkywalker/Personalize-SAM。

[Nature Communications] MedSAM: Segment Anything in Medical Images - 医学领域SAM

code:https://github.com/bowang-lab/MedSAM

医学图像分割是临床实践中的关键组成部分,有助于准确诊断、治疗方案规划和疾病监测。然而,现有的方法通常是针对特定的模态或疾病类型量身定制的,在各种医学图像分割任务中缺乏通用性。在此,我们提出了MedSAM,这是一个基础模型,旨在通过实现通用的医学图像分割来弥合这一差距。该模型是在一个大规模医学图像数据集上开发的,该数据集包含1570263个图像-掩码对,涵盖10种成像模态和30多种癌症类型。我们对86项内部验证任务和60项外部验证任务进行了全面评估,结果表明,与基于模态的专业模型相比,该模型具有更高的准确性和鲁棒性。通过在广泛的任务中提供准确、高效的分割,MedSAM在加速诊断工具的发展和治疗方案的个性化方面具有巨大潜力。

Personalizing Vision-Language Models With Hybrid Prompts for Zero-Shot Anomaly Detection - SAM用于zero-shot异常检测/分割一切异常[💥文本与异常图像的对齐,类似GroundingDINO/GroundedSAM]

华科

零样本异常检测(ZSAD)旨在开发一种基础模型,该模型能够在不依赖参考图像的情况下检测任意类别的异常。然而,由于“异常”本质上是相对于特定类别中的“正常”来定义的,因此在没有描述相应正常上下文的参考图像的情况下检测异常仍然是一项重大挑战。作为参考图像的替代方案,本研究探索使用广泛可用的产品标准来描述正常上下文和潜在的异常状态。具体而言,本研究引入了AnomalyVLM,它利用通用预训练视觉语言模型(VLM)来解读这些标准并检测异常。鉴于当前VLM在理解复杂文本信息方面的局限性,AnomalyVLM从标准中生成混合提示(包括针对异常区域的提示、符号规则和区域编号),以促进更有效的理解。这些混合提示被整合到所选VLM中异常检测过程的各个阶段,包括异常区域生成器和异常区域优化器。通过使用混合提示,VLM被定制为特定类别的异常检测器,为用户提供了在无需训练数据的情况下检测新类别异常的灵活性和控制权。在四个公开的工业异常检测数据集以及实际汽车零部件检测任务上的实验结果突出了AnomalyVLM的卓越性能和更强的泛化能力,尤其是在纹理类别中。

高效SAM

可以参考以下,包含FastSAM、MobileSAM、Efficient-SAM、Edge-SAM、RepViT-SAM

https://github.com/IDEA-Research/Grounded-Segment-Anything/tree/main/EfficientSAM


基于SAM实现的工具

半自动标注

anylabeling

code:https://github.com/vietanhdev/anylabeling
Effortless data labeling with AI support from YOLO and Segment Anything! AnyLabeling = LabelImg + Labelme + Improved UI + Auto-labeling

X-AnyLabeling - 相比anylabeling模型集成更丰富

code:https://github.com/CVHub520/X-AnyLabeling
X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。

OpenMMLab PlayGround: Semi-Automated Annotation with Label-Studio and SAM

https://github.com/open-mmlab/playground/tree/main/label_anything

Segment Anything Labelling Tool (SALT)

code:https://github.com/anuragxel/salt#segment-anything-labelling-tool-salt

图像编辑

Edit Anything by Segment-Anything

code:https://github.com/sail-sg/EditAnything
This is an ongoing project aims to Edit and Generate Anything in an image, powered by Segment Anything, ControlNet, BLIP2, Stable Diffusion, etc.

综述

https://arxiv.org/pdf/2305.08196
可以看出大部分都是结合SAM与其他模型实现的工具,例如

  • 与CLIP结合实现语义感知
  • 与stabel diffusion、controlnet结合实现inpainting或图像编辑
  • 与目标检测模型结合实现实例分割
No.ProjectTitleProject pageCode baseAffiliationDescription
001SAM-TrackSegment and Track AnythingGoogle ColabGitHubZhejiang University用于视频中自动或交互式跟踪和分割任何对象,结合SAM和XMem等技术。
002Grounded-SAMGrounded Segment AnythingGoogle ColabGitHubIDEA Research结合Grounding DINO和SAM,支持文本输入的对象检测与分割。
003MMDet-SAM--GitHubOpenMMLab结合SAM与目标检测(封闭集、开放集、接地检测)的实例分割方案。
004MMRotate-SAMZero-shot Oriented Object Detection with SAM-GitHubOpenMMLab结合SAM和弱监督水平框检测,实现旋转框检测。
005MMOCR-SAM--GitHubOpenMMLab文本检测/识别与SAM结合,支持文本字符分割和扩散模型驱动的文本去除/修复。
006MMEditing-SAM--GitHubOpenMMLab结合SAM和图像生成,支持图像编辑和生成。
007Label-Studio-SAMSemi-Automated Annotation with Label-Studio and SAM-GitHubOpenMMLab结合Label-Studio和SAM实现半自动标注。
008PaddleSeg-SAMSegment Anything with PaddleSeg-GitHubPaddlePaddlePaddlePaddle格式的SAM预训练模型参数。
009SegGPTSegmenting Everything In ContextHugging FaceGitHubBAAI-Vision基于Painter的上下文分割模型,支持“分割一切”。
010SEEMSegment Everything Everywhere All at OnceHugging FaceGitHubMicrosoft支持多模态提示的通用分割模型。
011CLIP SurgeryCLIP Surgery for Better ExplainabilityDemoGitHubHKUST基于CLIP的可解释性改进,实现无手动点的文本到掩码生成。
012SAMCODCan SAM Segment Anything? When SAM Meets Camouflaged Object Detection-GitHub-SAM与伪装对象检测(COD)任务结合。
013Inpaint AnythingSegment Anything Meets Image InpaintingHugging FaceGitHubUSTC and EITSAM与图像修复结合,支持对象平滑去除。
014PerSAMPersonalize Segment Anything with One ShotarXivGitHub-单样本个性化SAM,支持特定视觉概念分割。
015MedSAMSegment Anything in Medical Images-GitHub-医学图像分割的SAM教程,支持小数据集快速应用。
016Segment-Any-AnomalyGroundedSAM Anomaly DetectionGoogle ColabGitHubHUST结合Grounding DINO和SAM的异常分割模型。
017SSASemantic Segment Anything-GitHubFudan University自动密集类别标注引擎,为SA-1B数据集提供初始语义标注。
018Magic Copy--GitHub-Chrome扩展,使用SAM提取图像前景并复制到剪贴板。
019Segment Anything with Clip-Hugging FaceGitHub-SAM与CLIP结合的应用。
020MetaSegSegment Anything VideoHugging FaceGitHub-SAM的视频处理打包版本。
021SAM in NapariSegment Anything Model (SAM) in NapariNapari HubGitHubApplied Computer Vision Lab and German Cancer Research Center将SAM的点击分割扩展到全点击语义/实例分割,集成到Napari。
022SAM Medical Imaging--GitHub-医学影像领域的SAM应用。
0233D-Box3D-Box via Segment Anything-GitHub-结合SAM和VoxelNeXt,扩展至3D感知。
024Anything-3D--GitHub-支持3D新视图生成、NeRF和3D人脸的SAM扩展。
025L2SETLearning to Segment EveryThing-GitHubUC Berkeley, FAIR实例分割的部分监督训练范式。
026Edit AnythingEdit Anything by Segment-Anything-GitHub-基于SAM、ControlNet、StableDiffusion的图像编辑工具。
027Image Edit Anything (IEA)--GitHub-使用Stable Diffusion和SAM进行图像编辑。
028SAM for Stable Diffusion WebuiSegment Anything for Stable Diffusion WebUI-GitHub-连接Stable Diffusion WebUI和ControlNet,增强图像修复功能。
029Earth Observation ToolsSegment Anything EO toolsGoogle ColabGitHub-SAM的地球观测工具,支持GeoTIFF和TMS数据处理。
030Moving Object DetectionTowards Segmenting Anything That Moves-GitHub-SAM与运动对象检测结合的项目。
031OCR-SAMOptical Character Recognition with Segment Anything知乎GitHub-结合MMOCR、SAM和Stable Diffusion的OCR方案。
032SALTSegment Anything Labelling Tool-GitHub-使用SAM的轻量标注工具,支持COCO格式掩码保存。
033Prompt Segment Anything--GitHub-基于SAM的零样本实例分割实现。
034SAM-RBox--GitHub-使用SAM生成旋转边界框,对比H2RBox-v2方法。
035VISAMMOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors-GitHub-结合SAM和MOT,开启“MOTS”时代。
036SegEOSegment Anything EO-GitHub-基于滑动窗口算法的空间数据(GeoTIFF/TMS)处理工具。
037Napari Segment Anything tools-CodecovGitHub-SAM的原生Qt UI工具。
038SegDrawerSimple static web-based mask drawer-GitHub-简单的基于Web的掩码绘制工具,支持SAM语义分割。
039Segment-Anything-U-Specify-Google ColabGitHub-使用CLIP和SAM,通过文本提示分割指定实例。
040Track AnythingSegment Anything Meets VideosHugging FaceGitHubSUSTech灵活的交互式视频对象跟踪与分割工具。
041Count Anything--GitHub-使用SAM和CLIP,基于文本提示计数任意对象,无需手动标注。
042RAMRelate Anything ModelHugging FaceGitHubMMLab, NTU and VisCom Lab, KCL/TongJi输入图像,利用SAM识别对应掩码。
043SegmentAnyRGBD-Hugging FaceGitHubShowlab, NUS基于SAM的RGBD图像分割工具箱。
044Show Anything-Hugging FaceGitHubShowlab, NUS兼容SAM和生成模型的应用集合。
045Any-to-Any Style TransferMaking Picasso and Da Vinci Collaborate-GitHubLV-lab, NUS交互式风格迁移工具,支持不同区域应用不同风格。
046Caption Anything-Google ColabGitHubVIP lab, SUSTech结合SAM、视觉caption和ChatGPT的多功能图像处理工具。
047Image2ParagraphTransform Image Into Unique Paragraph个人主页GitHub-利用OFA、ChatGPT、BLIP2等将图像转换为文本段落。
048LIME-SAMLocal Interpretable Model-agnostic Explanations for Segment AnythingGoogle ColabGitHub-基于LIME的SAM可解释性工具,替换超像素方法。
049Paint Anything--GitHub-基于SAM的交互式笔触绘画工具,支持类人绘画。
050SAMedCustomized Segment Anything Model for Medical Image SegmentationGoogle ColabGitHubUSTC基于SAM的医学图像分割定制模型,探索大规模模型定制范式。
051Personalize SAMPersonalize Segment Anything with 1 Shot in 10 SecondsHugging FaceGitHubMMLab, CUHK无训练个性化方法PerSAM,单样本快速定制SAM。
052Open-vocabulary-Segment-Anything--GitHub-结合OwlViT和SAM,支持开放词汇检测与分割(文本/图像条件)。
053Label-Anything-Pipeline--GitHubZJU结合GPT-4和SAM的视觉任务一站式标注管道。
054Grounded-Segment-Any-PartsGrounded Segment Anything: From Objects to Parts项目主页GitHubHKU扩展SAM支持文本提示(对象级/部件级)的分割。
055AnyLabeling-YouTubeGitHub-基于SAM和YOLO的AI辅助数据标注工具。
056SSASemantic Segment AnythingReplicateGitHub-自动密集类别标注引擎,为SA-1B提供初始语义标签。
057RefSAMLabel Data with Segment Anything in Roboflow博客GitHub-基于SAM的Referring图像分割基准测试。
058Roboflow AnnotateLaunch: Label Data with Segment Anything in Roboflow博客Roboflow平台RoboflowSAM辅助标注工具,用于训练计算机视觉模型。
059ImageBind SAM--GitHubIDEA Research结合ImageBind和SAM,支持多模态掩码生成的实验性演示。

参考,感谢以下研究人员的整理:
https://zhuanlan.zhihu.com/p/630529550
https://blog.csdn.net/m0_61899108/article/details/132024941
https://github.com/liliu-avril/Awesome-Segment-Anything

<think>好的,用户让我介绍一下SAM(Segment Anything Model)分割一切的大模型。首先,我需要确认用户对SAM的了解程度。可能他们听说过这个模型,但想深入了解它的原理、应用或优势。SAM是由Meta AI开发的,基于深度学习的图像分割模型,能够零样本分割图像中的任何对象。 接下来,我应该整理SAM的关键点。首先是模型的结构,比如图像编码器、提示编码器和掩码解码器。然后是它的训练数据,SA-1B数据集,包含超过10亿掩码,这对模型的泛化能力至关重要。接着是核心功能,如支持点、框、文本等提示方式,以及自动生成全图分割掩码的能力。 用户可能关心SAM的应用场景,比如计算机视觉任务中的图像编辑、自动驾驶、医学图像分析等。此外,可能需要解释零样本分割的概念,说明它如何在没有特定任务训练的情况下适应新任务。 还要考虑用户可能的疑问,比如SAM的局限性,例如处理复杂遮挡或小物体时的挑战。同时,与之前的分割模型相比,SAM的优势在哪里,比如灵活性和泛化能力。 需要确保使用中文,结构清晰,分点说明。避免使用过于专业的术语,或者必要时进行解释。比如,解释“掩码”是指分割出的对象区域。同时,检查LaTeX格式是否正确,但根据用户的问题,可能不需要数学公式,但如果有必要,确保用$...$或$$...$$包裹。 最后,总结SAM的意义,比如推动通用AI在视觉领域的发展,为后续研究提供基础。可能用户是研究者或开发者,想了解如何应用SAM到自己的项目中,可以提到开源代码和预训练模型的可用性。 现在组织这些信息,确保符合之前的系统指令,使用自然口语化的中文,分步骤解释,结构清晰,每部分有标题,帮助用户逐步理解SAM模型。</think>SAM(Segment Anything Model,分割一切模型)是由Meta AI(原Facebook AI)于2023年提出的通用图像分割大模型,其核心目标是实现"零样本"(zero-shot)的任意对象分割能力。以下是关于SAM的核心要点: --- ### **1. 核心特点** - **全场景分割** 无需特定训练即可分割图像中任意对象,支持点、框、文本等多种交互提示方式 - **零样本学习** 即使面对未见过的物体类别或复杂场景,也能生成准确的分割掩码 - **多模态输入** 支持多种输入形式:点击(正/负点)、边界框、粗略掩码、文本描述等 --- ### **2. 技术架构** 模型采用三阶段结构: 1. **图像编码器** - 使用MAE预训练的ViT-H/16视觉Transformer - 将图像转换为高维特征向量(1024×64×64) 2. **提示编码器** - 处理点/框/文本等提示信息 - 对位置信息进行位置编码 3. **掩码解码器** - 结合图像特征和提示信息 - 通过交叉注意力机制生成最终掩码 --- ### **3. 关键创新** - **SA-1B数据集** 包含1100万张图像和**11亿个高质量分割掩码**,覆盖广泛场景和对象 - **提示式分割** 通过交互式提示实现动态分割,模拟人类标注过程 - **歧义处理** 对模糊提示(如物体重叠区域)可输出多个合理分割结果 --- ### **4. 性能表现** | 指标 | 表现 | |-------------------|------------------------------| | 单掩码生成速度 | ≈50ms/张(GPU) | | COCO零样本mIoU | 77.8(超过监督学习模型) | | LVIS零样本mIoU | 58.1 | --- ### **5. 应用场景** - **图像编辑**:精确对象抠图 - **自动驾驶**:实时道路场景解析 - **医学影像**:病灶区域自动标注 - **遥感分析**:地理要素快速提取 - **视频处理**:跨帧对象追踪 --- ### **6. 局限性** - 对超精细边缘(如头发)分割仍有提升空间 - 处理高度遮挡物体时可能出现漏分割 - 文本提示的语义理解能力待加强 --- ### **7. 开源生态** - 代码库:GitHub公开(Apache 2.0协议) - 预训练模型:提供ViT-H/ViT-L/ViT-B三种规模 - 交互式Demo:可通过网页端体验实时分割 SAM的推出标志着通用计算机视觉模型的重要突破,其论文《Segment Anything》已被CVPR 2023收录。该模型为后续的通用视觉系统(如目标检测、图像生成等任务)提供了强大的基础能力支撑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

↣life♚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值