A Comprehensive Survey on Segment Anything Model for Vision and Beyond


这篇论文是在SAM大模型发布以后,由香港科技大学和上交大的研究者写的一篇综述,里面概括了SAM大模型到目前为止的应用

摘要

人工智能(AI)正在向人工通用智能发展,这是指人工智能系统执行广泛任务的能力,并表现出与人类相似的智能水平。这与狭义或专门化的AI形成了鲜明对比,后者的设计目的是高效地执行特定任务。因此,迫切需要设计一种通用的模型,我们称之为基础模型,在广泛的数据上训练,可以适应各种下游任务。最近提出的任意分割模型(SAM)在打破分割边界方面取得了重大进展,极大地促进了计算机视觉基础模型的发展。为了充分理解SAM,我们进行了一项调查研究。作为第一个全面回顾基于SAM基础模型的任何视觉及其他任务分割进展的工作,本工作通过讨论其历史发展,最新进展以及对广泛应用的深刻影响,重点关注其在各种任务和数据类型中的应用。我们首先介绍了包括SAM在内的基础模型的背景和术语,以及与SAM同时代的最先进的方法,这些方法对于分割任何任务都很重要。然后,我们分析和总结了SAM在各种图像处理应用中的优势和局限性,包括软件场景、现实场景和复杂场景。重要的是,本文得出了许多见解,以指导未来的研究,以开发更通用的基础模型和改进SAM的体系结构。我们还总结了SAM在视觉和其他领域的大量其他令人惊叹的应用。

最后,我们在这里维护了一个持续更新的论文列表和一个基础模型SAM的开源项目摘要。

引言

最近,CV社区见证了对任务不可知论基础模型的探索热潮。这些模型的一个共同特征是依赖于在广泛数据集上预训练的基础模型,该模型使用任务可以通过快速学习解决广泛的下游任务。这种发展任务不可知论基础模型的新研究趋势是最近由一种称为分割任意模型(segment anything model, SAM)的模型引发的,该模型是为一般图像分割而设计的。SAM是一个可提示的模型,使用可提示的分割任务在1100万张图像上训练了超过10亿个掩模,从而实现了强大的零快照泛化。许多研究人员,如Jim Fan,认为这是“CV的GPT-3时刻,因为SAM已经学会了物体是什么的一般概念,甚至对于未知物体、不熟悉的场景(例如水下和细胞显微镜)和模糊的情况”,并显示出作为CV基本模型的巨大潜力
最近,社会上提出了大量的扩展工作来探索SAM的能力边界,并将其应用于各种任务,如医学图像分析、图像绘制、图像编辑、风格转移、基础设施检测、伪装物体检测、镜像和透明物体检测、图像字幕、视听定位、视频目标跟踪、三维重建,少射目标计数,以及对抗性攻击。
与SAM并行,Wang等提出了一种通才模型,即SegGPT,将各种分词任务统一到一个上下文学习框架中,该模型显示出较强的零射击能力。此外,邹等人通过引入比SAM更多样化的提示,提出了一种更通用的分割系统SEEM,包括视觉提示(点、框、涂鸦、蒙版)、文本提示和引用提示(另一幅图像的引用区域)。
作者声称,在SEEM中引入的统一提示方案可以将不同的提示编码到联合的视觉语义空间中,从而产生强大的零概率泛化能力,以解决看不见的用户提示进行分割。此外,一些开创性的工作探索了在开放词汇场景中检测/分割任何东西的通用AI方法,例如接地DINO, OVSeg, V3Det和OpenSeg。这些进步使许多研究人员认为,通用基础模型是实现通用人工智能(AGI)的关键一步。

零样本泛化能力(zero-shot generalization ability):在零样本泛化中,模型需要自主学习如何推理和生成适当的输出,而不是只是简单地复制已有的模式。
AGI:通用人工智能

为此,本研究对这些研究进行了全面的综述,旨在帮助研究人员了解与SAM模型相关的最新发展。本调查主要关注自SAM以来的各种基础模型,特别是SAM在各种任务和数据类型中的应用。读者可参考已有的关于语言、视觉和多模态基础模型的调查。据我们所知,这项调查是第一次全面回顾基于SAM基础模型的视觉及其他任何任务分割的最新进展。在我们工作的同时,[33],[68]简要总结了最近将SAM扩展到视觉和医学图像分割任务的努力,然而,我们从更广泛的角度提供了更全面的回顾和许多新的见解。此外,我们保持不断更新的论文列表和项目摘要,以反映SAM基础模型在其发展过程中的动态进展。

[33]:Y. Zhang and R. Jiao, “How segment anything model (sam) boost medical image segmentation?” arXiv preprint arXiv:2305.03678,2023.
[68]:Y. Zhang and R. Jiao, “How segment anything model (sam) boost medical image segmentation?” arXiv preprint arXiv:2305.03678,2023.

背景和术语

图像分割

传统分割

图像分割是一项基本的计算机视觉任务,通过将每个像素分配给一个类或对象,将数字图像分成多个部分。传统的分割包括三个主要任务:语义分割、实例分割和全局分割

  • 语义分割为每个像素分配一个预定义的语义类标签。
  • 实例分割进一步分离了同一类的实例。
  • Panoptic segmentation将语义分割和实例分割相结合,全面理解场景。

由于上述任务在像素级上的操作一致性,许多研究尝试使用统一的框架同时提供三种分割方法的解决方案,如K-net、MaskFormer、Mask2Former。

交互式分割

交互式分割是一种特殊的分割任务,其特点是利用用户交互引导的信息。尽管这是一个长期的挑战,但这个问题已经有了相当大的改善。

通常,用户提供一些初始输入,如点、笔画或边界框,以指示对象的大致位置和形状。然后,该算法根据用户反馈迭代改进分割,如纠正错误标记的区域或添加缺失部分。

交互式分割对于许多需要精确对象提取的应用非常有用,例如医学图像分析、照片编辑和数据注释。

基础模型

基础模型是构建可适应各种下游任务的人工智能系统的新范式。它们基于在大量数据上训练大型神经网络,通常使用自监督学习技术。这允许他们学习可以转移到不同领域和应用程序的通用表示和功能。该术语由斯坦福基础模型研究中心(CRFM)于2021年创造,以捕捉该范式的重要性和挑战。

自监督学习:???

基础模型的发展可以追溯到深度学习和自监督学习在NLP领域的兴起,这使得从原始文本数据中学习强大的表示成为可能。基础模型的早期例子是预训练的LLMs(大型语言模型),如BERT、T5和GPT-n系列,它们在广泛的NLP任务上展示了令人印象深刻的能力和性能。

在CV研究中,目前的基础模型试图利用在大规模数据上训练的llm,并在从各种大规模图像文本数据中学习通用视觉表示方面表现出色。代表包括eclip、ALIGN、Florence、VLBERT、X-LXMERT和DALL-E试图捕捉视觉和语言之间的跨模态交互。它们可以被转移或直接作用于分类、检索、对象检测、视频理解、视觉问答、图像字幕和图像生成任务。最近,ImageBind试在图像/视频信息周围对齐六种不同的模态信息,并学习统一的嵌入空间,为多模态基础模型的进一步研究开辟了道路。计算机视觉和多模态学习的基础模型仍然是一个活跃的研究领域,在提高其性能、鲁棒性、可解释性和社会影响方面存在许多挑战和机遇。

Segment Anything模型

SAM来自Meta在2023年的Segment Anything(SA)项目。通过寻找在NLP和CV领域中出现的表现较强的基础模型,研究人员试图建立一个类似的模型来统一整个图像分割任务。然而,在分割领域的可用数据是不足的,与他们的设计目的不同。因此,如下图所示,他们将路径分为任务、模型和数据三个步骤。相应的,提出了一个分割任务方案,包括提示式分割任务(提示包括提供分割目标的位置、范围、掩码或文本描述),可接受多个提示输入并实现交互使用的SAM,以及使用超过10亿个掩码的交互式训练-标注循环过程数据引擎形成的DatasetSA-1B。
图1

任务

SA项目的最终目标是提供一个具有广泛功能的模型,该模型可以快速适应许多现有的和新的分割任务,并且可以将零样本转移到新的数据分布和任务中。由于许多复杂的功能可以通过现有工具的简单组合来实现。例如,如果存在针对人类的边界框检测器,则可以通过提供检测器的框输出作为对模型的提示来解决人类实例分割问题。研究人员从LLM中获得灵感来实现这一目标,使用提示工程(Prompt Engineering)来覆盖预训练和下游任务。具体来说,引入交互式分割的概念,形成提示任务,实现模型的训练。

Prompt Engineering:Prompt就是给预训练好的大语言模型一个提示,以帮助模型更好的理解人类的问题。

提示任务的一个独特特征是,当给定任何分割提示时,返回一个有效的分割掩码。提示符可以是指示要分割的内容的任何内容。一个有效的分割掩码意味着,即使输入提示会导致歧义(比如一个人穿着T恤的图像,提示点在T恤上),它也应该是至少一个对象的合理掩码(它返回的是人的掩码或T恤的掩码都是合理的)。

模型

SAM的结构如图2所示。它主要由三个部分组成,一个强大的图像编码器(MAE预训练的ViT );提示编码器,分为稀疏输入(CLIP的文本编码器作为位置编码器处理点、框、文本形式提示)和密集输入(卷积处理掩码输入);和一个掩码解码器(使用自注意和交叉注意的提示-图像双向变压器解码器prompt-image bidirectional Transformer decoder using self-attention and cross-attention)。此外,当输入提示不明确时,网络将根据置信度对三种可能的掩码输出进行排序。训练中使用的损失函数包括focal loss和dice loss。
在这里插入图片描述

prompt-image bidirectional Transformer decoder using self-attention and cross-attention:

数据

由于可供训练的公共数据不足,研究人员采用训练-标注迭代过程组成数据引擎,同时实现模型训练和数据集构建。具体过程可分为三个阶段。

  1. 辅助手动阶段。专业的注释人员使用浏览器上的交互式标注工具,并结合SAM进行手动标注。SAM首先使用公共数据集进行训练。随着数据量的逐渐增加,SAM图像编码器的尺寸也随之增大。在这一阶段结束时,共收集到430万个掩模(Mask)和12万张图像。
  2. 半自动阶段。为了增加掩模的多样性,提高模型的性能,研究人员首先对掩模进行了预填充,使模型能够进行高置信度的预测。然后,他们要求注释者交互式地注释未填写的部分。在这个阶段结束时,一个图像可以提供平均72个掩模。
  3. 全自动阶段。在这一阶段,由于收集了足够的掩码和引入了模糊感知模型,可以进行SAM的最终训练和SA-1B数据集的获取。模糊感知模型使SAM能够预测有效的掩码,即使提示是模糊的。具体来说,研究人员使用32x32的网格来均匀地获得每张图像上的提示点。如果提示点位于目标部件或子部件结构上,则模型将返回子部件、部件或整个对象的掩码。并根据置信度对输出进行筛选排序。在这一阶段结束时,最终的SA-1B数据集包含11M张图像和11亿个掩模。

实验表明,SAM模型的零样本转移能力在单线索点分割、边缘检测、似物性采样(object proposal)、实例分割、交互分割和多模态分割(Text-to-Mask)任务中取得了优异的效果,具有良好的任务设计、模型结构和海量高质量训练数据等优势。它甚至在某些方面胜过监督模型。

object proposal:目标检测(object detection),要求模型不仅能判断一幅输入图像中包含哪类目标,还得框出目标的具体位置(bounding box)。为了实现上述要求,传统的方法是利用滑动窗口(Sliding Window)的方式,用不同尺度(scale)、比例(aspect ratio)的窗口在图像上滑动,穷举出所有可能位置上的子图像块。然后再将这些子图像块输入到目标识别(object recognition)模型中进行分类。这种方式数据量巨大,通常一幅图像需要分割成约10^6个子图像块……相对于滑动窗口的方法,另一类就是OP方法。这类方法的基本思路就是在图像上找到一些潜在的目标,而不是穷举!然后将这些潜在的目标输入目标识别模型进行分类。

并行工作

在SAM研究的同时,人们也在用其他通用方法解决分割任务方面做了很多努力。

OneFormer利用任务条件联合训练策略、任务令牌和查询-文本对比损失形成通用的图像分割框架。OneFormer能够在单一通用模型和多任务训练过程中对所有三个传统分割任务进行训练。使用不同的主干,它优于专门的模型、cityscape和COCO数据集,甚至花费更少的训练时间和资源。
同时,SegGPT代表用一个通才画家分割一切,探索上下文训练和推理方案。它形成了一个通才的上下文学习框架,统一了不同的分割数据格式。并将训练过程视为上下文中的随机着色问题,而不是使用预定义的颜色空间。这个训练过程要求模型关注上下文信息来完成特定的任务。基于这些改进,该模型可以通过上下文推理来执行基于输入图像或视频的任意分割任务。

此外,SEEM进一步拓宽了单一分割模型的任务适用范围。它进一步扩展了支持的提示类型,包括点、框、涂鸦、蒙版、文本和另一个图像的引用区域。利用所提出的联合视觉语义空间,该模型具有组成灵活多提示输入的兼容性。在没有提示符的情况下,SEEM也可以作为经典的分割模型进行处理。然而,它也受到训练数据有限和缺乏基于部分的分割支持的困扰

SAM用于图像处理

软件场景

图像编辑

3.1.1图像编辑现代软件场景需要对图像进行编辑和绘制操作,如移除对象填充对象替换对象等。然而,现有的图像修复作品需要对每个蒙版进行精细的注释才能达到良好的效果,这是一种劳动密集型的工作。SAM可以通过点或框等简单提示生成准确的蒙版,可以辅助图像编辑场景。
**Inpaint Anything (IA)**通过结合SAM、最先进的SOTA图像绘制器和ai生成内容(AIGC)模型[103]的优势,设计了一个管道来解决与绘画相关的问题。管道如下图所示。

  • 对于对象移除,管道由SAM和SOTA图像绘制器组成,如LaMa。来自用户的单击操作在SAM中用作提示符,以生成对象区域的掩码,而LaMa将用腐蚀和膨胀操作填充该掩码
  • 对于物体的填充和替换,第二步使用AIGC模型,如Stable Diffusion (SD),通过文本提示用新生成的物体填充选中的物体。

Inpaint Anything (IA)的整体流程

SOTA图像绘制器:。。。
LaMa:。。。
AI生成内容模型(AIGC):。。。
Stable Diffusion (SD):模拟扩散

图4:Edit Everything from原文的整体流程[40]。

类似的想法也可以在Edit Everything上看到。如下图所示,它允许用户使用简单的文字指令编辑图像。

  1. 具体来说,在输入图像时,SAM首先在没有提示的情况下将其分成几个片段
  2. 然后是一个源提示,指示CLIP对接收到的片段进行排序
  3. 只选择得分最高的段作为目标段,用带有目标提示符的SD新生成的对象替换
    在这里插入图片描述
    与人工智能中的对象替换方案相比,作者在中文场景中训练了4亿个参数的CLIP和10亿个参数的SD,使其对中文文本提示更加可靠。此外,本文通过将复杂的提示分解成更小的实体并以顺序的方式替换,提高了图像的真实感。虽然它作为一种新颖的工具表现良好,但本文指出,在不同的场景下,它仍需要特定的增强。

风格迁移

风格迁移的目的是将一个给定的图像(风格图像)的风格转移到另一个给定的图像(内容图像)。
通常,传递的样式由样式图像的整体样式或样式图像的局部颜色和纹理来表示,内容图像只会产生一个结果,缺乏用户交互的灵活性。**通过SAM的提示区域选择功能,任意到任意样式转移使用户能够指定在样式转移过程中选择哪个样式区域以及应用哪些内容区域。**管道如下图所示
原论文中任意到任意风格转换示意图
其组织方式如下:

  1. 用预训练好的VGG-19对样式和内容图像进行编码,并计算出内容样式注意图。
  2. 通过SAM和输入提示获取样式和内容掩码。
  3. 将注意图与上一步的掩模控制信号融合。
  4. 利用更新后的注意图计算风格化特征,并得出最终结果。

VGG Encoder:VGGNet突出的贡献是证明了很小的卷积,通过增加网络深度可以有效提高性能。VGG很好的继承了Alexnet的衣钵同时拥有着鲜明的特点。相比Alexnet ,VGG使用了更深的网络结构,证明了增加网络深度能够在一定程度上影响网络性能。说得简单点,VGG就是五次卷积的卷积神经网络。

通过定义的管道,本文证明了所提出的方法是现有风格迁移方法的即插即用组成部分,包括基于局部转换的风格迁移基于全局转换的风格迁移基于扩散的风格迁移,显示了其广泛应用的巨大潜力。

现实场景

检测

SAM具有辅助应用于许多真实场景中的能力,例如真实世界的目标检测、目标计数和运动目标检测场景。最近,[108]评估了SAM在各种真实世界分割场景中的性能,例如自然图像、农业、制造、遥感和医疗场景。该论文发现,SAM在像自然图像这样的常见场景中具有出色的泛化能力,但在低对比度场景中显示出较少的效果,并且在复杂场景中需要强大的先验知识。
在这里插入图片描述
图6:使用SAM和U-Net进行裂缝检测的过程。该图来自原始论文[42]。 例如,在土木基础设施缺陷评估应用中,[42]利用SAM检测混凝土结构中的裂缝,并将其性能与基准U-Net [109]进行比较。图6展示了裂缝检测的过程。结果表明,SAM在检测纵向裂缝方面优于U-Net,后者更容易在正常场景中找到类似的训练图像,而在异常场景(例如剥落裂缝)中,SAM不如U-Net效果好。

与裂缝检测中的复杂图像情况不同,火山口检测更适合利用SAM作为检测工具,因为火山口形状偏向圆形或椭圆形。火山口是行星探测中最重要的形态特征之一,检测和计数火山口是行星科学中一项重要但耗时的任务。虽然机器学习和计算机视觉领域的现有工作成功解决了火山口检测中的一些具体问题,但它们依赖于特定类型的数据,因此在不同的数据源中很难工作得很好。

在[110]中,作者提出了一种具有零样本泛化能力的通用火山口检测方案,其中利用SAM对陌生对象进行分割。该管道使用SAM对输入图像进行分割,对数据类型和分辨率没有限制。然后,它使用圆形-椭圆形指标过滤掉不是圆形-椭圆形形状的分割掩模。最后,采用后处理滤波器去除重复项、伪迹和误报。该管道显示出在当前领域中成为通用工具的巨大潜力,作者还讨论了只能识别特定形状的缺点。

计数

少样本目标计数是现实世界中计算机视觉的重要应用场景,它通过提供少量示例的边界框来计数未见过的目标类别。由于SAM展示出了对未知对象具有印象深刻的泛化能力,它有潜力在少样本目标计数中使用。
但是发现SAM在小型和拥挤的对象方面落后于SOTA基线。因此,在一些特殊场景中,仍然需要进一步改进SAM。

运动目标

复杂场景

有点懒得写了捏,看了看这个写的挺全面,就看这个吧
https://zhuanlan.zhihu.com/p/631388736

其他应用:视觉和超越

视觉相关应用

医学成像

医学图像分割的目的是揭示相应组织的解剖或病理结构,以辅助计算机辅助诊断和智能临床手术。由于计算能力和医疗数据资源的快速发展,基于深度学习的医学图像分割在准确率和速度上都比传统方法有了巨大的进步。随着视觉转换器(Visual Transformer, ViT)的出现,基于视觉转换器的医学图像方法[165]、[166]、[167]、[168]在医学图像分割方面取得了优异的成绩。然而,这种网络是针对特定任务的,缺乏对其他任务的泛化能力。近年来,为了在一个统一的框架内解决多种分割任务,SAM被提出。在此背景下,研究人员开始关注自定义医学图像分割的SAM,并总结了一些有用的策略来提高其性能。这项工作[33]简要总结了最近将SAM成功扩展到医学图像分割任务的努力,而我们在本节中提供了更全面的总结和更深入的见解。

视觉转换器(Visual Transformer, ViT):ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,虽然不是第一篇将transformer应用在视觉任务的论文,但是其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好)。ViT原论文中最核心的结论是,当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果

根据医学图像的成像格式,SAM在医学图像分割中的应用可分为六个系列:计算机断层扫描(CT)图像磁共振成像(MRI)图像结肠镜图像H&E染色组织切片图像多格式图像等

用于CT图像

CT扫描结合了从身体不同角度拍摄的一系列x射线图像,并使用计算机处理来创建身体内骨骼,血管和软组织的横截面图像(切片)。本文[145]初步研究了SAM作为医学图像分析的注释工具,特别是用于多相肝肿瘤(MPLiTS)的分割。他们的调查重点是所使用的提示、数据解析和阶段。实验结果证明了SAM在这种情况下的有效性,同时也突出了MPLiTS可以改进的领域。

为了给MPLiTS社区提供全面的指导,作者计划进行进一步的调查,包括更广泛的方面。本文的目的是通过使用基于点或边界盒的提示来评估SAM在腹部CT器官分割任务中的表现,从而初步评估SAM在医学图像分割方面的开箱即开的零射击能力。研究结果表明,SAM可以有效地推广到CT数据,这可能会加速临床医生半自动分割工具的发展。SAMed针对医学图像分割提出的解决方案,它不同于以往的方法,它利用了大规模图像分割模型SAM。该方法包括通过对SAM图像编码器应用基于低秩的(LoRA)微调策略来定制用于医学图像分割的SAM模型。与SAM不同,SAMed在医学图像的语义分割任务上表现更好。经过训练的SAMed模型达到了与SOTA方法相当的性能。此外,由于SAMed只更新SAM参数的一小部分,因此在实际使用中,它的部署和存储成本非常低。

用于核磁共振成像。

核磁共振成像是一种非侵入性诊断成像技术,它使用强大的磁场、无线电波和计算机来产生人体内部结构的详细图像。核磁共振成像通常用于观察大脑、脊柱、关节和其他软组织。本研究[148]将SAM与FSL的脑提取工具(BET)(一种广泛使用的、目前的金标准脑提取技术)在不同图像质量、MR序列和影响不同脑区域的脑病变的各种脑部扫描上进行了比较。研究结果表明,基于平均Dice系数、IoU和精度指标,SAM优于BET,特别是在图像质量受到信号不均匀性、非各向同性体素分辨率或靠近或涉及大脑外部区域和脑膜的脑病变的情况下。

此外,SAM具有优越的分割特性,可以对不同的组织区室和大脑结构进行细粒度分离。这些结果表明,SAM有潜力成为一个更准确、健壮和通用的工具,用于广泛的大脑提取和分割应用。论文[149]表明,SAM可以在点到掩模设置下对脑肿瘤MRI数据集实现较高的分割精度,并有效地推广到脑肿瘤MRI数据集,并达到与之前评估的2D照片相似的分割精度。此外,作者指出了在MRI数据集中使用SAM进行肿瘤分割时遇到的挑战,并提出了解决这些问题的策略,这些策略也可以应用于临床实施。

在这里插入图片描述

用于结肠镜检查图像。

结肠镜检查是一种检查肠道内部的检查。该报告[31]评估了SAM在非提示设置下分割息肉的性能。polyp -SAM[150]是一种为息肉分割而设计的精细SAM模型。作者评估了其对各种SOTA息肉分割模型的性能,并比较了两种迁移学习策略的性能:一种涉及编码器的微调,另一种没有。在五个公共数据集上的实验结果表明,SOTA在两个数据集上表现良好,在其余三个数据集上表现出色。

H&E染色组织切片图像。

H&E染色组织学切片是指组织标本经苏木精和伊红(H&E)染色后进行显微检查。这种染色技术通常用于组织学和病理学,以突出组织样本内的不同结构和细胞成分。这个测试可以帮助你找到引起肠道症状的原因。本研究[156]评估了SAM模型在全幻灯片成像中具有代表性的分割任务(包括肿瘤分割、非肿瘤组织分割和细胞核分割)上的零射击分割性能。核心结果表明,零射击SAM模型对大型连接对象具有显著的分割性能。作者还确定了数字病理学的几个限制,包括图像分辨率、多尺度、提示选择和模型微调。为了解决这些限制,对来自下游病理分割任务的图像进行少量微调可能有助于模型在未来的密集目标分割中获得更好的性能。本文[158]证明了其生成的掩模、特征和稳定性分数可以用来构建和训练更高级的医学图像分割模型。具体来说,它展示了如何使用SAM来增强常用的医学图像分割模型(如U-Net)的图像输入。在两个数据集上进行了测试,实验证明了该方法的有效性。

SkinSAM[157]提出了一种基于精细调整的SAM模型用于皮肤癌分割,该模型显示出出色的分割性能。实验结果还表明,较大的ViT L和ViT H模型的性能优于较小的ViT b模型,其中微调模型(ViT b fine-tuned)的性能改善最大。

用于多种格式的图像。

本部分的工作是针对多种医学图像的多个分割任务,对SAM进行评估或提出基于SAM的分割方法。

  • 评估SAM分割医学图像的能力。本文[30]是首次将SAM的成功推广到医学图像上。它编制了一个广泛的医学图像数据集,包括11种不同的模式和包含超过20万个口罩。这项工作是对SAM在来自不同形态和解剖结构的11个医学成像数据集上分割医学图像的能力的广泛评估。本文探讨了SAM在12个公共医学图像分割数据集上的准确性,这些数据集涵盖了各种器官(脑、乳腺、胸部、肺、皮肤、肝脏、肠道、胰腺和前列腺)、图像形态(2D x射线、组织学、内窥镜、3D MRI和CT)和健康状况(正常、病变)。本文对医学图像上的SAM进行了评估,并在医学图像分割的9个基准上给出了零间隔分割的定量和定性结果。这些基准包括各种成像模式,包括光学相干断层扫描(OCT)、磁共振成像(MRI)和计算机断层扫描(CT),以及不同的应用,如皮肤病学、眼科和放射学。本文通过收集超过12个涵盖各种器官和形态的公共医学图像数据集,评估了SAM对医学图像的零射击泛化。本文通过对来自四种不同成像方式(包括x射线、超声、皮肤镜和结肠镜)的六个数据集进行测试,评估了SAM 2D在医学成像中的零射击性能。研究结果表明,SAM 2D的零射击性能与现有SOTA模型相当或优于前者。Huang等[38]收集并整理了52个开源数据集,构建了包含16种模态、68个对象、553K个切片的大型医学分割数据集。在COSMOS 553K数据集上对不同的地对空导弹测试策略进行了综合分析。
  • 基于sam的医学图像分割方法。本文提出了一种简单的微调方法来定制用于一般医学图像分割的SAM模型。在21个3D分割任务和9个2D分割任务上的严格实验表明,MedSAM优于默认的SAM模型。SAMM (Segment Any Medical Model, SAMM)[153]是SAM在3D Slicer上的扩展,3D Slicer是一款广泛使用的开源图像处理和可视化软件,在医学影像界得到了广泛的应用。医学SAM适配器(Medical SAM Adapter, MSA)[34]首次将医学特定领域知识集成到分割模型中,并在CT、MRI、超声、眼底、皮肤镜等多种图像模式的19种医学图像分割任务中表现出优异的性能。本文介绍了一种用于眼科多模态图像中多目标分割的新方法——Learnable Ophthalmology SAM。该方法包含一个可学习的提示层,该提示层从每个变压器层中提取医学先验知识。本工作在训练过程中采用一次性机制,只训练提示层和任务头。通过实验验证了该方法在9个公开数据集上的四种医学分割任务(即血管分割、病变分割和视网膜层分割)的有效性。SAM-Adapter利用特定领域的信息或视觉提示,通过使用简单而有效的适配器来增强分段网络。大量实验证明,通过将任务特定知识与大型模型学习的一般知识相结合,SAM- adapter可以显著提高SAM在挑战性任务中的性能。PromptUNet是通过扩展SAM中现有的提示类型,包括新的支持性提示和Enface提示而提出的。作者评估了19医学图像分割任务的能力,使用各种图像模式和PromptUNet超过了广泛的最先进的(SOTA)医学图像分割方法。
用于其他医学图像。

本文使用MICCAI EndoVis 2017和2018挑战中的两个已建立的机器人仪器分割数据集来评估SAM的性能。广泛的评价表明,在边界框提示下,SAM具有显著的零射击泛化能力。此外,定性数据表明,该模型要么无法预测仪器面罩的某些部分(如颌部和手腕),要么在仪器在同一边界框内重叠的情况下或使用基于点的提示对仪器的部分进行错误分类。然而,在一些涉及血液、反射、模糊和阴影的复杂手术场景中,SAM无法识别器械。此外,SAM的性能不够健壮,无法承受各种形式的数据损坏。GazeSAM[160]是第一个利用眼动追踪技术和SAM的力量来提高日常临床实践效率的作品。它使放射科医生能够在图像诊断过程中通过简单地查看感兴趣的区域来收集分割掩码。该系统跟踪放射科医生的目光,并使用结果数据作为SAM的输入提示,然后自动实时生成分割掩码

写到这发现,对我的项目帮助不怎么大,不写了

  • 20
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值