【读点论文】分割一切模型SAM的潜力与展望。中文综述,写作蛮细致的

分割一切模型SAM的潜力与展望:综述

Abstract

  • 随着基于对比文本一图像对的预训练(contrastive language-image pre-training,CLP)方法或者模型、聊天生成预训练 Transformer (chat generative pre-trained Transformer,ChatCPT),生成预训练转换器-4(generative pre-trained Transformer-4,GPT-4)等基础大模型的出现,通用人工智能(artifcial general inteligence,AGI)的研究得到快速发展。
  • AGI旨在为人工智能系统赋予更强大的执行能力,使其能够自主学习、不断进化,解决各种问题和处理不同的任务,从而在多个领域得到广泛应用。这些基础模型在大规模数据集上进行训练后,能够成功应对多样的下游任务。在这一背景下,Meta公司提出的分割一切模型(segment anything model,SAM)于2023年取得重要突破,在图像分割领域获得了优异的性能,以至于被称为图像分割终结者。
  • 其原因之一是,通过SAM数据引擎方法用三阶段采集的、包含1100万图像和超过10亿掩码的分割一切一十亿(segment anything1 bilion,SA-1B)图像分割数据集,同时保证了掩码的品质和多样性,继续导致在分割领域的突破。在SAM开源后不久,科研人员提出了一系列改进的方法和应用。
  • 为了能全面深入了解分割一切模型的发展脉络、优势与不足,本文对SAM的研究进展进行了梳理和综述。首先,从基础模型、数据引擎和数据集等多个方面简要介绍了分割一切模型的背景和核心框架。在此基础上,本文详细梳理了目前分割一切模型的改进方法,包括提高推理速度和增进预测精度两个关键方向。然后,深人探讨分割一切模型在图像处理任务、视频相关任务以及其他领域中的广泛应用。这一部分详细介绍了模型在各种任务和数据类型上的卓越性能,突出其在多个领域的泛用性和发展潜力。最后,对分割一切模型未来的发展方向和潜在应用前景进行了深人分析和讨论。

introduction

  • 近年来,人工智能领域基础模型的发展取得了引人注目的成就。基础模型是指广泛应用于各类人工智能任务的通用模型,这些模型经过大规模数据训练,具有强大的表征能力。在自然语言处理(natural language processing,NLP)、计算机视觉等领域,基础模型取得了显著成果,其深层次的神经网络结构和复杂的参数设定能够捕捉底层特征并进行高级抽象。特别是大型语言模型(large language model,LLM),由于能利用大数据集进行预训练,因而具有出色的零样本或少样本学习能力。大型语言模型首先在自然语言处理领域形成了多项标杆性成果。自2017 年提出的 Transformer开始,随后的代表性成果包括双向语言表征的(bidirectional encoder representations from Transformer,BERT)、GPT-3(generative pre-trained Transformer-3)、GPT-4、ChatGPT 等。其中,ChatGPT是由 OpenAI 开发的人工智能(artificial intelligence,AI)聊天机器人,利用名为GPT-3. 5的大型语言模型生成类似人类的回复,以响应用户输入,该模型在各类自然语言处理任务上均表现出了超过其他模型的性能,同时在智能车领域也得到了广泛应用。

  • 除了在自然语言处理领域的应用之外,基础模型在计算机视觉领域也得到了探索,例如CLIP(contrastive language-imagepre-training)和大规模图像和噪声文本嵌人(a large-scale image and noisy-text embed-ding,ALIGN)的预训练视觉语言模型就在不同的下游视觉任务上展现了优异的零样本和少样本的泛化性能。这些模型通常使用从互联网上收集的大量图像一文本对数据进行训练,并采用一个文本编码器和图像编码器,同时借鉴对比学习的方法从大量图文数据中学习图像和文本的特征表示。再通过简单的自然语言描述和提示,这些预训练的基础模型就可以应用到下游任务,如“图像一文本”检索和图像生成等任务。

  • 随着这些基础模型在各个领域的广泛应用,其已经成为目前人工智能系统架构的重要组成部分。除了上述大型视觉语言基础模型外,一些研究工作也致力于开发通过视觉输人提示的大型基础模型。Kirillov等人提出的分割一切模型(segment anything model,SAM)通过给定图像和视觉提示,如目标框、点和掩码等,来指定在图像中分割的内容。经过在1100万幅图像上训练超过10亿的掩码,SAM拥有了强大的零样本学习能力,使它可以有效地应用到下游视觉任务。

  • SAM的出现极大地促进了计算机视觉领域基础大模型的发展。因此出现了大量工作来探索改进SAM,并将SAM应用到其他各种任务中,如图像处理、视频处理等领域。除了 SAM之外,Wang等人还提出了上下文分割一切(segmenting every-thing in context,SegGPT)通用模型。该模型将各种分割任务统一成一个上下文学习框架,根据上下文来完成不同的分割任务,表现出了很强的零样本学习能力。此外,Zou等人提出的SEEM(segmenting everything everywhere model)分割系统与SAM相比,SEEM 涵盖了更为广泛的交互提示,包括视觉提示(目标框、点和掩码)和语言提示(文本和音频)SEEM可以在没有提示的开放集中完成多种分割任务,如语义分割、实例分割和全景分割。在模型架构上,SEEM采用了常见的编码器-解码器架构,通过统一的图像编码器和提示编码器将视觉和提示编码到一个联合的视觉语义空间中。因此,SEEM可以应用到各个领域,并有潜力扩展到自定义提示

  • 随着SAM的发展,已经有一些综述文献对其进展进行了总结。Zhang等人的综述主要介绍了SAM在图像处理、视频处理和其他视觉领域的研究进展。Zhang和Jiao的综述则专注于介绍SAM在医学图像分割任务上的应用,并讨论了SAM在医学图像分割领域未来的发展方向。然而这些综述缺乏对于SAM本身进行改进的方法总结,较少讨论如何做潜在的改进和应用。不同于现有的综述文献,本文重点关注总结SAM改进方法,并详细介绍SAM在图像处理、视频处理和其他视觉领域的应用进展。最后,思考了几种有价值的SAM未来研究方向,期望有助于视觉基础模型的发展。

    • 在这里插入图片描述

    • SAM研究结构图

SAM 背景

  • 大型语言模型(LLM)在自然语言处理领域中展现了很强的零样本和少样本学习能力。它们能够学习通用的表示,从而能够泛化到不同的领域和应用中。这些模型使用来自于互联网上的大量数据进行训练,在NP的各种任务上展现出了比较强的能力和性能。因此在计算机视觉领域中,也有许多研究人员正在开发大规模的视觉基础模型,以学习计算机视觉任务中的通用表示。
  • 从大型语言模型中得到启发,研究人员从多样化的大规模图像一文本数据中学习通用的视觉表示。其中,具有代表性的模型有 CLIP、Florence ,VL-BERT和DALL-E,这些模型的重点是获得视觉和语言之间的跨模态交互信息,理解视觉概念和细节,利用生成图像区域的自然语言描述生成图像。同时这些模型也可以被迁移应用于图像分类、检索、视觉问答、图像描述和视频理解等任务中。
  • Kirillow等人提出的分割一切(segment anything,SA)项目,让人们看到了基础模型在自然语言处理和计算机视觉领域的巨大潜力。该项目构建了一个能够统一整个图像分割任务的基础模型。在项目中,研究人员借鉴了大型语言模型的思想,提出了一种名为SAM的提示分割模型。该模型在大型数据集上进行预训练,具有较强的泛化能力,可以通过提示工程解决模型在新数据分布上的泛化问题。提示工程的特点在于,用户可以给定任何关于分割的提示,模型将返回一个基于提示的有效分割掩码。如图所示,SA项目可以分为3个部分:任务、模型和数据。
    • 在这里插入图片描述

任务

  • 根据 Minaee 等人的研究,图像分割是计算机视觉领域中的一项关键基础技术,也是图像理解的重要组成部分。图像分割的核心任务可以理解为对图像中的每个像素进行分类。目前,常见的图像分割技术主要有3种:语义分割实例分割和全景分割。在语义分割中,当一幅图像中存在多个同类物体时,这些物体无需明确区分,因此它们的像素标签属于同一类别;而在实例分割中,当图像中存在多个同类物体时,不仅需要识别出物体的类别,还需要将这些物体相互区分;全景分割则是指将语义分割和实例分割相结合,从而对图像全景进行分割
  • 然而,传统的图像分割技术通常只适用于特定的任务场景,其在其他场景的下游分割任务上的泛化能力相对较弱。因此,SA项目的宗旨是构建一个具有强大泛化能力的模型,其能够广泛应用于各种下游分割任务(包括实例分割、语义分割、全景分割和边缘检测等),并在新的数据分布和任务中实现零样本学习。此前,自然语言处理(NLP)领域的预训练模型通过提示工程展示了出色的零样本和小样本学习能力。
  • 研究人员借鉴这一思想,将提示工程引人图像分割领域,形成了可提示的分割任务范式。如图2(a)所示,模型的输人由两部分组成:一部分是分割提示,包括点、目标框、掩码和文本提示;另一部分是需要进行分割的图像。模型的目标是,根据用户提供的分割提示,生成一个有效的掩码。此处“有效掩码”是指,即使提示不明确或涉及多个对象,模型的输出也应该是这些对象中一个合理的掩码
  • 可提示分割赋予模型对任何提示做出适当响应的能力,因此当SAM应用于新的分割任务时,可以通过设计适当的提示来获得更好的泛化能力。SA项目采用可提示的分割任务作为预训练的目标,并通过提示工程解决其他下游分割任务。

模型

  • 如图3所示,SAM主要由3部分构成:图像编码器、提示编码器和掩码解码器。首先,图像编码器的任务是将输人图像映射至特征空间,从而获得图像的特征嵌人。其次,提示编码器的主要职责是将用户输人的提示映射至特征空间,从而得到提示的特征嵌人。这些提示主要分为两类,一类是密集提示(上次迭代中预测的粗略掩码、用户标注的掩码);另一类是离散提示(如点、目标框、文本提示)。其中,密集提示通过卷积层进行处理,而离散提示则通过提示编码器进行处理。掩码解码器具备两个主要的功能。

    • 1)将图像编码器和提示编码器输出的两个嵌入层进行整合;
    • 2)通过整合后的信息解码出最终有效的掩码。
  • 值得注意的是,掩码解码器会根据置信度输出3种掩码,分别是选中物体的整体掩码、部分掩码和子部分掩码。以图3所例,当输人的提示点位于剪刀的刀柄部位时,模型则会输出以下3种掩码:1)将整把剪刀进行分割;2)将剪刀的两个刀柄分别进行分割;3)将选中的这一个刀柄进行分割。

    • 在这里插入图片描述

    • 图3:分割一切模型框架

  • 因此,根据用户输人的提示点位置,模型会将这3种掩码按照各自的置信度大小进行排序输出,以准确地满足用户的需求。

图像编码器
  • 图像编码器在 SAM中的作用是将输入图像映射到特征空间,这一过程主要依赖于预训练好的 ViT(vision Transformer)模型该模型基于MAE(masked auto encoder)方法进行训练。SAM中的图像编码器包含4个主要步骤
    • 1)输人图像进人 VT网络,并提取 16x16、步长为16的图像块(patch)。经过图像块嵌入(patch_embedding)处理后,图像特征图的尺寸将缩小为原来的 1/16,通道数从3增加到768。
    • 2)为特征图添加位置编码。位置编码是可学习的参数矩阵,初始值为 0。
    • 3)将添加了位置编码的图像特征图经过 16个转换模型块(Transformer block)。其中12个block将特征图分成 14x14的窗口进行局部注意力操作,其余4个block则对特征图进行全局注意力操作。
    • 4)经过两层卷积将通道数降到256,得出最后的图像特征编码。
  • 需要注意的是,图像编码器的计算量在SAM 中占据了相当大的比例,因此,改进SAM的图像编码器以提升 SAM的速度将是未来一个具有研究价值的方向。
提示编码器
  • 提示编码器的功能是提取输人提示的特征空间,并确保提示的特征图尺寸与通过图像编码器提取的图像特征编码相一致。此前已经提到,SAM的提示分为两种类型:1)离散提示(点、框和文本);2)密集提示(掩码)
  • 对于离散提示中的文本提示,使用CLIP 中预先训练好的文本编码器进行处理。对于离散提示中的点和框提示,使用位置编码进行表示。具体而言,点提示的映射由两部分组成:一部分表示该点所处的位置编码,此位置编码采用空间坐标乘以高斯分布的向量来表示;另一部分则是由表示当前点提示是前景还是背景的可学习的单维特征向量组成。框提示的映射同样由两部分组成:一部分是提示框左上角的位置编码与表示“左上角”的可学习描述向量相加;另一部分由提示框右下角的位置编码与表示“右下角”的可学习描述向量相加
  • 对于密集提示(即掩码),其与图像具有相应的空间关系。在将掩码输入提示编码器之前,需要先将其下采样4倍。随后,使用两个2x2、步长为2的卷积核进行卷积,将掩码下采样至与图像特征图相同的尺寸。接着,通过一个1x1的卷积将掩码提示的通道数映射到 256维,其中每一层都由高斯误差线性单元(Gaussian error linear units, GELU)激活函数和层归一化分隔最后,将掩码和图像特征向量进行逐元素相加
掩码编码器
  • 掩码解码器在SAM中扮演着至关重要的角色它巧妙地将图像编码、提示编码和输出标记融合在一起,经过精密计算,最终输出对象的分割掩码以及每个掩码所对应的置信度分数。这个解码器主要依赖于自注意力操作和提示-图像双向更新的Transformer解码器来执行任务。在训练过程中,采用Dice Loss 和 Focal Loss 作为损失函数,这两种损失兩数以其独特的计算方式为模型提供了有力的帮助。

  • 掩码解码器的内部结构如图4所示。在提示标记进入掩码解码器之前,将它们与一组可学习的输出标记进行拼接,使它们在进人解码器时能够更灵活地适应环境。接着,这些标记通过一个两层的Transformer结构进行深度融合。首先,标记经过自注意力层的精细处理,然后作为交叉注意力中的查询对与图像嵌人进行交叉注意力操作,从而更新标记。经过两层的全连接层,标记将会得到进一步的更新和优化。同时,将图像嵌入作为查询对与标记进行交叉注意力操作,从而更新图像嵌人。经过两层上述结构之后,最后再将标记作为查询对与更新后的图像嵌入进行交叉注意力操作,从而输出最终的标记

    • 在这里插入图片描述

    • 图4:掩码解码器结构

  • 更新后的图像嵌入经过两层转置卷积上采样,大小为2x2、步长为2,这种上采样方式使得图像嵌入能够得到进一步的提升和优化。接着,将掩码标记从输出标记中分离出来,通过一个3层的全连接层调整通道数,使其与最终输出的图像嵌入保持一致。最后,将这两部分通过矩阵乘法生成对掩码的预测。此外,还要将交并比(intersection overunion,IoU)标记从输出标记中分离出来,经过一个3层的全连接层输出掩码的置信度。

  • 在整个训练过程中,掩码解码器对掩码和置信度的预测进行严格的监督,并通过反向传播不断优化模型输出的损失值最小的掩码。通过这种方式,确保了模型的准确性和可靠性。

数据构成

数据引擎
  • 在图像分割领域,由于缺乏大规模的数据集来训练一个基础模型,Kirillov等人通过数据引擎实现了对数据集的构建和对模型的训练。这一创新性的解决方案重塑了图像分割领域的格局。数据引擎的工作流程分为3个阶段,从辅助手动阶段到半自动阶段,最后是完全自动阶段

    • 在辅助手动阶段,数据标注员借助交互标注工具,与SAM一起进行手动标注。在此过程中,SAM首先使用公共数据集进行训练,随着数据的逐步增加,其性能也不断提升。最终,这一阶段共收集了430万个掩码和12万幅图像。
    • 进入半自动阶段,为了进一步提升掩码的多样性和模型的性能,研究人员利用SAM输出的高置信度掩码对图像进行预标注。然后,标注员再对图像中剩余未标注的部分进行交互式标注。这一阶段结束时,每幅图像平均提供了 72个掩码
    • 最后,完全自动阶段。在这个阶段,由于已经积累了足够多的掩码并引人了能解决歧义问题的模型,因此可以进行SAM的最终训练和分割一切SA-1B 数据集的获取。这个适应歧义的模型使SAM能在提示存在歧义时预测出有效的掩码。具体过程是这样的:使用32x32的网格在每个图像上获取提示点。如果提示点位于目标部分或子部分结构上,模型将返回子部分、部分或整个对象的掩码,并根据置信度对输出进行筛选排序。最终,SA-1B数据集包含1100万幅图像和11亿个掩码。
  • 使用SA-1B数据集训练SAM,使得 SAM模型在单一提示点分割、边缘检测、目标提议、实例分割、交互式分割和多模态分割(文本到掩码)等任务中展现出优异的零样本迁移能力,在某些任务中的性能甚至超过了有监督模型

SA-1B数据集简介
  • Kirillov等人构建的数据集 SA-1B 由1 100万幅不同的高分辨率图像和11亿幅高质量的分割掩码图像组成。其中,99.1%的掩码是自动生成的,这些新图像的分辨率明显高于许多现有的图像分割数据集。在对比实验中,与以往专业人工标注的掩码相比,自动生成的掩码质量更高,对训练模型也更加有效。

SAM的改进

  • 随着SAM在众多任务中取得显著进展,研究人员正探讨如何进一步优化SAM以更好地应用于其他下游任务。下表总结了5种针对SAM改进方法的比较。为方便理解,以下从提高SAM的推理速度和提高SAM的预测精度两个方面介绍面向SAM的改进方法。
    • 在这里插入图片描述

    • sam,FastSAM,MobileSAM,SAM-HQ,Semantic-SAM

推理速度

FastSAM
  • SAM的图像编码器采用了基于MAE的视觉 Transformer (ViT)模型,该模型由于运用Transformer架构处理高分辨率图像的输人,其计算开销较大,训练成本也相对较高,这在一定程度上阻碍了它在一些工程任务上的应用。为了解决SAM在训练和推理过程中的速度问题,Zhao 等人提出了一种名为快速分割一切(fast segment anything,FastSAM)的改进模型。
  • FastSAM通过将分割任务划分为全实例分割和提示指导选择两个阶段,实现了对SAM的加速。在全实例分割阶段,FastSAM运用卷积神经网络对输人图像中的所有对象和区域进行分割。在提示引导选择阶段,该模型主要采用了点、框和文本提示来选择最终需要输出的对象
  • FastSAM还支持文本交互模式,只需通过特定的文本提示,便能精确定位并分割出不同的对象。如图5所示,FastSAM采用了传统的卷积神经网络来替代SAM 中的 Transformer架构。这一改进使得FastSAM 在边缘检测数据集 BSDS500和目标检测COCO数据集上的推理速度相较于 SAM提高近50倍。此外,FastSAM在结构设计过程中融人了人类的先验知识,这使得它在推理精度上也能与SAM相媲美,成为首个实现实时分割的基础模型。FastSAM在缺陷检测和边缘检测方面均表现出色,进一步展示了其有着良好的泛化性和巨大的应用潜力。
    • 在这里插入图片描述

    • 图5 FastSAM与SAM的速度比较

MobileSAM
  • 为了实现移动设备上运行SAM的目标,Zhang等人提出了移动分割一切模型(mobile segment anything model,MobileSAM)。由于移动设备的硬件条件限制,MobileSAM的要求比官方SAM更加轻量化且推理速度更快。然而,原始SAM中使用的图像编码器的参数量巨大(超过 600 M),过于重量级,导致在移动设备上部署SAM模型变得困难。为了在保留SAM功能和特性的前提下实现在移动设备上运行的分割模型,关键思路是用轻量级图像编码器替代笨重的基于V的图像编码器。为此MobileSAM 仿照 SAM的官方训练方式,将大型的像编码器替换为轻量级版本,并进行知识蒸馏重新训练。然而,直接替换并重新训练的难点在于如何优化图像编码器和掩码解码器之间的关联。要解决这一难点,一种可行的方法是固定其中一个部分,只优化另一部分。然而,这种方法仍然具有挑战性,特别是掩码解码器端的提示选择是随机的导致解码器的行为不稳定,从而增加了优化的难度。
  • 如图6所示,MobileSAM采用了解耦的蒸馏方法,其核心思想是在保持模型性能的同时,将知识从一个大型模型蒸馏到一个小型模型中,以实现在移动设备上的高效运行。这种方法的具体实施是固定掩码解码器,并将VT-的知识蒸馏到一个轻量级图像编码器中。MobileSAM 仅使用了 SAM 中提供的SA-1B数据集的1%(100k)样本进行8次迭代训练模型,在单个GPU(graphics processing unit)(RTX 3090)中使用不到一天的时间就完成了训练。相较于原始SAM 需要使用11T的数据,使用256个A100 GPUs,训练超过 68 h.MobileSAM使用较小的计算资源就实现了与SAM相当的性能。
    • 在这里插入图片描述

    • 图6:MobileSAM框架

预测精度

HQ-SAM
  • 尽管SAM模型具有出色的零样本学习和迁移能力,但在一些复杂的图像分割情况下,其预测的掩码质量并不尽如人意。为了解决这一问题,Ke等人提出了高品质任意分制(segment anything inhigh quality,HQ-SAM)模型,旨在保留原始SAM的零样本学习和迁移能力的同时提高其掩码预测精度
  • 如图7所示,HO-SAM相较于原始SAM进行了两处关键的改进。首先第一处改进是在SAM的基础上引人了轻量级的高质量输出标记和全局一局部特征融合两个结构。其中,高质量输出标记与SAM中的输出标记拼接后,一同输人到掩码解码器中,随后通过新的多层感知机层,将更新的高质量输出标记与经过全局一局部特征融合的高质量特征图进行点积。
  • 在模型的训练阶段,预训练好的SAM参数被固定,仅更新 HO-SAM中新引人的可学习参数。在推理阶段,遵循了SAM的推理流程,但使用了高质量输出标记的掩码预测作为最终输出的高质量分割掩码。高质量输出标记可以提升SAM生成高质量掩码的能力,而全局一局部特征融合则能提取和融合来自图像编码器中不同注意力层数的特征,增加了掩码特征的全局语义信息和局部的边界细节。最后,由于HO-SAM相较于原始SAM仅引人了轻量级的模型结构,因此既提升了分割掩码的质量,又减少了计算资源的损耗,提高了模型的训练效率
    • 在这里插入图片描述

    • 图7:HQ-SAM框架

Semantic-SAM
  • 由Li等人提出的Semantic-SAM 可以在多个粒度上对图像进行分割和识别。相比较于原来的 SAM,该模型有3个主要的优势:1)语义感知能力,Semantic-SAM通过整合多个数据集在语义信息上进行知识传递,能够给图像中分割出的掩码提供语义标签。2)有着更丰富的粒度,该模型通过多选择学习方案,能够为一个对象的整体到细节的不同粒度上生成分割掩码。这种丰富的多粒度能够使得模型更好地适应不同的下游任务和应用场景。3)支持更多场景的分割任务和其他领域的应用,实现了高质量的语义、全景、实例以及细粒度和交互式分割,同时Semantic-SAM也是首个使用SA-1B和经典分割数据集进行联合训练的模型,验证了使用SA-1B数据集进行联合训练可以提高模型在其他分割任务上的性能。

  • 如图8所示,该框架结构基于 Mask DINO(mask DETR with improved denoising anchor boxes)的改进,与原始的SAM在掩码解码器的部分有显著区别。Semantic-SAM同时支持通用分割和交互式分割。通用分割由Mask DINO模型完成,而交互式分割包含用户输人的点和框两种提示

    • 在这里插入图片描述

    • 图8:Semantic-SAM框架

  • 由于框提示不存在歧义的掩码,其实现方式与通用分割相同。而点提示则存在歧义问题,因此在Semantic-SAM中,用户输人的点提示会被转换为6个内容提示,每个提示用一个可学习的层次编码来区分。然后利用这6个内容提示输出多粒度的分割掩码。多个提示到多个输出结果的匹配和监督使模型具有了高质量的多粒度分割性能。实验发现,这6个提示所生成的每个分割掩码都会对应一个固定的粒度,这表明每个提示都学习到了一个固定的粒度,从而方便用户找到自己需要的粒度的分割掩码。

应用

  • 如下表所示,其中在评价指标中,均交并比(mean intersection over union,mloU)是一种用于像分割任务的评价指标,它衡量模型的分割结果与真实分割之间的重叠程度。Dice系数用于图像分割,衡量预测分割与真实分割的相似性,它计算两个集合的重叠部分相对于它们的总大小。峰值信噪比(peak signal-to-noise ratio,PSNR)用于衡量信号处理或图像处理任务中的质量损失,它计算图像或信号的峰值信噪比,以衡量重建结果与原始信号之间的失真程度。
    • 在这里插入图片描述

    • SAM在各个领域的应用

  • J&F通常用于二元分类任务,Jaccard 指数和 F1 分数分别考虑了正类别的交集与并集,以及精确度和召回率的调和平均。Dice相似性系数与 Dice Coemicient 相同,通常用于评估二元分类或图像分割的性能,也是通过测量预测和真实标签之间的重叠来衡量相似性。曲线下面积(area under the curve,AUC)通常用于评估分类模型的性能,特别是受试者工作特征(receiver operating characteristic,ROC)曲线下的面积
  • 受试者工作特征(ROC)曲线显示了真阳性率与假阳性率之间的关系,AUC表示ROC曲线下的面积,通常用于比较不同模型的性能。平均绝对误差(mean absolute error,MAE)用于回归任务,它度量模型预测与真实值之间的绝对误差的平均值。平均准确率(average precision,AP)用于评估不平衡数据集上的分类模型性能,它衡量了精确度-召回率曲线下的面积,可以用来评估模型对正类别的准确性。本节将介绍SAM及其改进方法在图像处理和视频相关任务上的应用。

图像处理任务

风格迁移
  • 风格转移的目标是将一个图像的风格应用于另一个图像。通常情况下,涉及到将风格图像的整体风格或局部的颜色、纹理特征转移到内容图像上。然而,这种方式限制了用户的交互性。为了解决这个问题,Liu等人提出了任意到任意(Any-to-Any)风格迁移框架。该框架通过可指定区域的选择能力,赋予用户更多的控制权。这意味着用户可以选择将风格具体迁移到图像的哪些部分,以及在图像的哪些区域进行风格转移。

  • 如图9所示,Any-to-Any风格转移框架的流程可以分为4个步骤:

    • 1)用预训练好的 VGG-19(VisualGeometry Group)作为编码器编码风格和内容图像,并计算内容-风格的注意力图;

    • 2)利用SAM和输人提示来获得用户选择好的风格和内容的掩码。

    • 3)将注意力图与控制信号结合起来;

    • 4)利用更新后的注意力图计算出风格化的特征,得出最终的结果。

    • 在这里插入图片描述

    • 图9 Any-to-Any风格迁移框架

  • 这个方法可以作为一个即插即用的模块,应用在各种风格转移方法上,包括基于局部转换、基于全局转换和基于扩散转换的风格迁移方法。展现了该模型在风格迁移领域广泛的适用性和应用潜力。

目标检测
  • 目标检测是计算机视觉领域的重要基础问题之一,也是许多其他视觉任务的基础,如图像标注、实例分割和目标跟踪等。鉴于SAM具有卓越的泛化能力,一些研究人员将其应用于目标检测任务中。SAM +MMDetection框架将SAM应用到了目标检测领域。如图10所示,该框架首先利用 MMDetection框架将图像中的各物体的目标框检测出来,然后将检测出来的目标框作为提示输入到SAM中,最终输出图像中所有物体的掩码。

    • 在这里插入图片描述
  • 除了检测常见场景下的物体之外,SAM还可以检测一些其他的场景,如由宇宙中的陨石、小行星或者彗星撞击造成的行星表面的圆形或椭圆形凹陷即陨石坑。Giannakis等人提出了一种利用SAM进行陨石坑检测的方案,如图11所示,该方案主要由3个步骤构成。首先,利用SAM对输人图像进行分割;其次,对每个分割掩码的形状进行分析,未被识别为圆形或椭圆形的分割掩码将被过滤掉:最后,采用一个后处理滤波器来消除任何潜在的重复项、伪迹和误报。在不同数据集和天体类型上:SAM均表现出良好的性能,且无需额外的标记数据进行微调,充分展示了 SAM作为通用工具的潜力。

    • 在这里插入图片描述
目标计数
  • 目标计数是计算机视觉的一项基础技术,在人群计数、细胞计数和车辆技术等领域都有着广泛的应用。为了验证SAM在计数任务上的扩展性,Ma等人第1个探讨了使用SAM进行少样本目标计数任务的评估。目标是验证SAM能否使用参考样例对目标对象进行识别和分割。

  • 如图12所示,实验流程主要由5部分组成:

    • 1)使用SAM 的图像编码器对输入图像进行特征提取;
    • 2)在图像中标出给定参考样例(一般为3个)的边界框作为提示输人给 SAM;
    • 3)输出与参考样例同类物体的分割掩码和特征向量;
    • 4)使用网格点采样方式产生提示来对图像中所有的掩码进行分割;
    • 5)计算SAM输出的分割掩码和参考样例的分割掩码之间的余弦相似度,只有大于预定义阈值的掩码才会被视为目标对象。所有目标对象的总和就是所要求的图像中物体的计数。
    • 在这里插入图片描述
  • 在FSC-147(few shot counting)和 MS-COC0 数据集上使用上述设置的流程进行实验。实验结果发现,在相对稀疏的 COCO数据集上,没有训练的SAM与其他传统的目标计数模型的性能差距较小,但是在物体相对比较小且密集的FSC数据集上,SAM的性能则比较差。因此,在这种特殊的场景下进行目标计数还需要进一步对SAM进行改进。

  • 考虑到现有的目标计数方法需要大量对图像中的目标进行标注的训练数据,这一标注过程费时费力,并且直接将SAM应用到目标计数任务上效果并不好。为了克服这些问题,Shi等人利用SAM提出了两种无需训练的带有提示的目标计数模型将计数任务看做分割问题。

  • 如图 13所示,无训练计数模型是直接利用SAM进行无训练的目标计数任务。该模型首先根据输人提示(包括点、目标框和文本)和图像特征利用余弦相似度计算参考目标特征和图像特征之间的余弦相似度,生成相似度映射。接着,以点网格为提示,为图像中的所有对象生成掩码,并分批处理。再通过点积计算相似度映射和生成掩码区域的平均相似度。如果得分超过预设闽值(如0.5),则将其识别为目标对象。最后,对所有已识别的目标对象进行计数,以确定总数。尽管这种方法无需额外训练,但由于传统的SAM方法缺乏特定的类别语义信息,因此计数精度较低。

    • 在这里插入图片描述
  • 为了突破此局限性,Shi等人引人了第2种无训练计数模型,该模型带有先验引导。如图14所示,此方法通过融合3个关键的先验知识来优化SAM 的掩码生成过程。首先,第1个先验知识类似于第1种方法,利用输人提示创建相似度映射以标注正负样本点;其次,维护一个包含当前所有分割区域的整体段映射,通过检查现有点来避免几余处理最后,利用参考对象的特征作为语义先验,增强SAM识别和分割图像目标对象的能力。这些先验使模型专注于目标对象,从而提高分割计数的准确性。大量实验表明,与基于监督的方法相比,Shi等人提出的先验引导无训练计数模型在目标计数标准数据集上具有出色的性能。

    • 在这里插入图片描述
  • Huang等人提出了PseCo(point, segment and count)模型。该模型首先利用SAM得到图像中所有物体的分割掩码;然后再使用CLIP得到图像文本嵌入作为分类器的广义对象分类方法;最后通过分层知识蒸馏在分层掩码之间获得判别的分类。在FSC-147、C0C0和LVIS( large vocabulary instancesegmentation)数据集上的大量实验结果表明,PseCo在少样本/零样本检测方面都达到了先进的性能。

图像编辑
  • 图像修复在诸多计算机视觉领域中扮演着核心角色,其目标在于恢复图像中缺失部分的像素。这项技术亦可用于图像编辑领域,例如移除图像中的特定对象、替换对象和补全对象等。近期,最先进的图像修复模型在图像修复领域取得了显著的进步。它们可以有效地修复图像的大部分区域,即使在处理低分辨率图像和复杂图像结构时也能展现出良好的效果。然而,为了实现最佳性能,这些模型通常需要为每个分割掩码进行细致的标注,这无疑是一项既耗时又烦琐的任务

  • Yu等人提出了名为修复一切(inpaint anything,IA)的模型,其结合了现有的基础模型(SAM、先进的图像修复模型以及生成模型),为解决广泛应用的图像修复问题提供了新的解决途径。如图15所示,IA具备3大核心功能。第1个功能是“移除一切”此功能帮助用户移除图像中的任意对象,并通过3个主要步骤确保生成的图像在视觉上保持真实。首先,利用SAM技术为用户点击的位置自动分割对象并创建分割掩码;然后,将分割出的对象进行删除;最后,利用图像修复模型来填充因移除对象而产生的空白。第2个功能是“填充一切”,该功能由4个步骤组成,其中前两个步骤与“移除一切”的前两步相同。第3个步骤中,用户需提供一个文本提示,指示系统使用何种内容来填充移除的部分。最后的步骤则通过功能强大的图像生成模型(如,stable diffusion)来生成用户所需的内容。第3个功能是“替换一切”,此功能的关键在于最后一步与“填充一切”不同,生成模型要生成的是替换选中对象的背景。IA模型展示了现有大型基础模型的强大能力,同时也充分展现了“可组合人工智能”的巨大潜力。

    • 在这里插入图片描述
  • Xie等人提出的Edit Everything也采用了类似的思路。如图16所示,该工具可使用简单的文本提示实现图像编辑。Edit Everything主要由3个部分组成:SAM、CLIP和稳定扩散模型(stable difu-sion,SD)。首先,SAM用于提取图像中所有的分割掩码;接着,CLIP根据用户提供的原始文本提示对这些分割掩码进行排序,选择与原始文本提示匹配度最高的分割掩码作为目标掩码;最后,SD模型根据用户给定的目标提示生成新的对象以替换所选择的对象。此外,通过将用户的复杂提示分解为多个简单的提示并按顺序进行替换,可以进一步提高生成的图像效果。实验发现,虽然使用SAM可带来一定的效果,但在特定场景中仍有待优化。

    • 在这里插入图片描述
复杂图像分割
  • 除了上述展示的 SAM在常规场景中的应用外其在一些复杂场景中也有一定的应用。目前,一些复杂的场景包括遥感图像分割低对比度图像分割、热红外成像分割等。在这些场景中,SAM也有一定的应用。Chen等人从SAM的提示学习中获得灵感,设计了一种自动化实例分割遥感图像的方法。这种方法能够将语义类别信息整合到SAM中,输出带有语义标签的遥感图像分割结果。由于SAM在超过十亿个掩码上进行了训练,所以其泛化能力特别强。

  • 然而,由于SAM是一个交互式框架,其模型的输出结果在很大程度上取决于提示的类型、位置和数量。为了更好地生成可以增强SAM框架能力的提示,他们提出了 RSprompter结构。这个结构能够生成更加准确和可靠的遥感图像分割结果,从而提高遥感图像分析处理的效率和质量。

  • 如图 17所示,该结构的目标是训练一个面向SAM的提示器,在图像经过图像编码器处理中会生成多个中间特征图,这些中间特征图经过一个特征聚合器后会获得语义相关且具有区分性的特征。然后利用训练好的提示器生成SAM掩码解码器所需的提示嵌入。其中提示器的结构主要分为两种,一种是查询式提示器,另一种是锚点式提示器。其中锚点式提示器通过使用基于锚点的区域提议网络生成候选的目标框,然后利用感兴趣区域(region ofinterest,RO)池化获取单个对象的视觉特征表示。查询式提示器主要由轻量级的Transformer组成,其中 Transformer的编码器部分用于从图像中提取高级的语义特征,解码器通过与图像进行注意力交互,从而将编码器提取出的语义特征转换为SAM所需要的提示嵌人。

    • 在这里插入图片描述
  • Chen等人在3个公共的遥感实例分割数据集(WHU Building、NWPU VHR-10 和 SSDD 数据集)上进行了实验,并将他们提出的方法和其他的遥感图像实例分割方法进行比较,实验结果表明作者提出的方法优于其他先进的遥感图像实例分割方法,并且通过消融实验验证了 RSprompter中各个组件的有效性。

  • Chen等人还根据SAM最新的发展总结了其他3种基于SAM的实例分割方法。如图18所示,第1种方法SAM-seg使用外部实例分割头,利用SAM图像编码器中存在的知识,从中提取图像的中间特征,然后使用一个特征融合器进行特征融合,最后使用一个外部的实例分割模型执行实例分割任务。这种方法中图像编码器保持冻结状态,并且训练方法中也没有使用多尺度损失监督。第2种方法SAM-cls首先是在整个图像中均匀采样点,并将每个点作为SAM的提示输人,然后在获得图像中所有的实例分割掩码后,再使用一个额外的分类器为每个掩码分配语义标签。第3种方法SAM-det首先训练一个目标检测器 Detector来检测图像中的目标框,然后将检测框作为提示输人到SAM中,得到最终目标的分割掩码。

    • 在这里插入图片描述
  • 热红外图像处理领域面临着图像对比度低、标注难度大等复杂场景的挑战,导致相关数据集较为稀缺,进而限制了模型性能的进一步提升。针对这一问题,Chen和 Bai巧妙地利用SAM 的强大泛化能力,构建了一个大规模的热红外图像分割数据集SATIR。同时还提出了一种创新性的框架,该框架首先使用SAM构建数据集,随后使用此数据集对模型进行预训练,最后再使用目标数据集对预训练模型进行微调。在公共热红外图像分割数据集SODA上,采用SATIR预训练的模型展现出了超越其他模型的性能,充分展现了SAM在这一领域的巨大潜力

医学图像分割
  • 医学图像分割旨在将特定的解剖结构(如器官病变和组织等)在图像中区分开来。这一基础且必不可少的步骤在计算机辅助诊断、治疗规划和疾病进展监测等多种临床应用中发挥着关键作用。随着SAM的出现,依托其强大的泛化能力有可能使得在一个框架下解决多种医学图像分割领域任务。因此,许多研究人员开始研究将SAM应用到医学图像分割领域。Zhang和Jiao总结了将SAM应用到医学图像分割领域的多项研究。首先,简要介绍了SAM的基础模型背景和框架流程,然后,如图19所示,评估了不同模式的SAM和其他分割网络在不同医学图像分割任务上的性能比较,以及怎样才能更好地使SAM适应图像分割任务。最后,将调查结果进行总结,并提出了目前SAM在医学图像分割领域的挑战和未来可能的发展方向。

    • 在这里插入图片描述
  • 根据医学图像形式的不同,可以将SAM 目前在医学图像分割中的使用分为7类:病理图像分割、CECT(contrast enhanced computed tomography)肝胖肿瘤分割、结肠镜检测、磁共振成像(magnetic resonance imaging, MRI)图像分割、腹部 CT(computedtomography)分割、内镜手术器械分割和多模态医学图像分割。本文主要介绍病理图像分割、MRI医学图像分割和多模态医学图像分割。

  • 在病理图像分割上,Deng等人实验了SAM在全视野数字切片上的肿瘤分割、非肿瘤组织分割和细胞核分割。结果表明在不同的场景下SAM对于大型的整体对象分割效果比较好,但是对于密集的小型对象,SAM并没有达到令人满意的性能。造成这个现象的原因包括数字化病理有着不同的组织类型和尺度,以及全视野数字切片的图像分辨率也明显高于SAM的训练分辨率

  • 磁共振成像(MRI)医学图像通常用于可视化大脑、脊柱和其他软组织。Mohapatra等人将SAM和脑提取工具(brain extraction tool,BET)进行了比较,BET是目前广泛使用的磁共振大脑提取和分割的标注技术。实验结果表明,SAM在平均 Dice系数、oU和准确性方面都要强于 BET,尤其在一些干扰更大、分辨率不高的图像上,SAM的性能要更强于 BET,这也表明SAM在分割 MRI医学图像上有着更大的潜力

  • 对于多模态医学图像分割,Wu将SAM和 UNet相结合,提出了PromptUNet。同时为了适应实际的临床应用,扩展了SAM现有的提示类型,加人了新的支持性提示和Enface提示,PromptUNet的框架结构如图20所示,作者在19个不同的医学图像分割任务上评估了PromptUNet的性能。实验结果表明,PromptUNet的性能要优于目前各种先进的医学图像分割方法。

    • 在这里插入图片描述
  • 在其他医学图像分割任务中,SAM的性能存在一些挑战,如在结肠镜图像分割和内窥镜器械分割方面表现相对较差。SAM在未给定提示的情况下在结肠镜图像上的性能低于行业领先方法,而在复杂手术场景和器械重叠的情况下,在内窥镜器械分割中也存在问题,这都需要进一步改进SAM 以应对这些特殊挑战

  • 从上面的研究中可以发现,在医学图像分割领域直接使用SAM并不一定能取得比较好的性能。所以为了更好地将SAM应用到医学图像分割领域,一些研究人员也提出了一些改进SAM的方法和模型。

    • 1)微调SAM。在皮肤癌分割任务中,Hu等人采用了一种微调方法。他们冻结了SAM中的图像编码器,然后对SAM的其他部分进行微调。通过对目标数据集进行训练,他们将SAM的平均Dice 系数从81.25%提高到了88.79%。此外,Ma等人创建了一个包含超过20万个掩码和11种模式的大规模医学图像数据集,提出了用于通用医学图像分割的扩展方法MedSAM。这种方法在21个3D分割任务和9个2D分割任务上的性能都要优于SAM。

    • 2)自动化提示生成。Shaharabany等人提出了自动分割一切模型(auto segment anything model,AutoSAM),用于训练辅助提示编码器生成可替代的提示。这使得SAM能够在全自动医疗场景中集成,无需手动输入提示,从而提高了 SAM 的应用灵活性

    • 3)提高提示质量鲁棒性。Gao等人提出了 DeSAM,将SAM的掩码解码器解耦成两个子任务,以提高SAM对提示质量的鲁棒性,减少错误提示对性能的影响。另外,Deng等人使用多框提示和不确定度估计来提高SAM的性能,估计随机不确定性并生成不确定性图,以突出具有挑战性的区域进行分割。

    • 4)使用 SAM 进行输人增强。Zhang 等人直接利用SAM生成的分割掩码来增强原始输入的医学图像。他们使用SAMAug进行输人增强,生成分割先验图和边界先验映射,以提高细胞分割任务的聚合Jaccard指数(AJI)和腺体分割任务的平均 Dice 系数

    • 5)SAM作为即插即用的模块。如图21所示,Li等人提出了nnSAM,将SAM作为即插即用的模块与nnUNet相结合,以提高医学图像分割的性能。nnSAM组合了SAM的特征提取能力和nnUNet的自动适应能力,适于各种医疗分割任务。

    • 在这里插入图片描述

    • 6)模块参数高效微调。Wu等人提出一种简单且有效的自适应技术(med SAM adapter,MSA)SAM在医学图像分割中表现不好的主要原因是缺乏训练数据,因此MSA使用称为 Adaption 的参数高效微调(parameters efficiently fine-tuned,PEFT)技术对预训练好的SAM进行微调。MSA在原始的SAM 中插人几个参数有效的 Adapter 模块,然后只调整 Adapter 参数,而将所有预先训练好的参数冻结。该模型在CT、MRI和超声等多个模态都表现了良好的性能

视频相关任务

视频超分辨率
  • 视频超分辨率( video super resolution,VSR)是一种基本的低分辨率视觉任务,旨在从低分辨率的视频中生成分辨率更高、视觉上更好的视频。并且目前在很多领域都有了实际应用,如视频监控、高清电视和卫星图像。然而,VSR任务在处理输人帧中的大幅度运动和跟踪物体被遮挡区域的信息聚合方面面临着挑战。这些挑战需要模型在复杂场景中比较准确地预测出跟踪物体的位移。

  • Lu等人首次研究了从SAM中提取的语义感知先验是否能有效增强VSR的性能。使用SAM是基于以下方面的观察:SAM对图像退化问题具有鲁棒性,这是由于SAM在超过 10亿个分割掩码和1100万幅图像的数据集上进行了训练,并且学习到了很强的语义特征。具体来说,一幅低分辨率的图像,提供给SAM来获得这种基于SAM的先验信息。随后,SAM可以为图像中包含的所有可能的对象生成分割掩码。然后提出了一种利用SAM构建更强大语义感知的先验知识提高 VSR 质量的方法。

  • Lu等人设计了一个轻量级的即插即用模快,称为引导改进 SAM 模块(SAM-guided refine-ment module,SEEM)。该模块可以利用语义信息增强模型的特征对齐和融合能力。具体来说,通过利用注意力机制和特征映射操作实现将SAM的表示与当前输入帧的特征相结合,然后生成语义感知的特征。对于现有方法的典型体系结构,所获得的语义感知特征可以以不同的方式用于增强模型的性能。如图22所示,对于基于滑动窗口的超分辨率方法,引入 SEEM改进了3个步骤,即对齐、融合和重建。

    • 在这里插入图片描述
  • 如图23所示,在基于循环结构的超分辨率方法中,将SEEM引人双向分支,以更好地进行特征扭曲和细化。值得注意的是,由于SEEM 即插即用的特性,其在被各种方法采用时表现出了高度的灵活性使得它可以很容易地集成到这些方法中,而不需要对模型的原始体系结构进行任何修改。同时在Vimeo-90K、REDS和 Vid4这3种常用数据集上,将SEEM应用于EDVR和BasicVSR两种代表性的VSR方法,验证了SEEM的通用性和可扩展性,并取得了较好的性能收益。更重要的是,SEEM可以在全面微调和高效调优两方面对现有方法进行改进。

    • 在这里插入图片描述
视频目标追踪
  • 视频目标追踪和视频对象分割都是计算机视觉中的一些基本任务,视频对象分割的目的是将视频序列中的目标(感兴趣区域)从背景中分离出来,然后在视频中对改目标进行跟踪,所以视频对象分割可以看做是一种更细粒度的目标跟踪,并且目前在智能监控和机器人等方面都有着实际应用。本节主要总结SAM目前在视频目标追踪方面的一些方法和应用。

  • Yang等人注意到目前最先进的视频跟踪器和分割器通常依赖于大规模人工标注的数据集,并需要初始的目标边界框或分割掩码。这导致需要消耗大量的人力成本来进行数据标注的问题。因此利用SAM强大的图像分割能力,通过训练和数据,其能够在复杂场景中生成准确的分割结果。此外,SAM还具有高度的互动性。因此提出了跟踪一切模型(track anything model,TAM),该模型为视频中的高性能目标跟踪和分割开发了一个高效的工具包。通过用户可以输人提示的界面,跟踪一切模型只需要一次推理就可以跟踪和分割给定视频中的任何对象

  • TAM的框架如图 24所示。其中,TAM结合了分割模型SAM和高级视频对象分割模型多重记忆模型(Atkinson-Shiffrin memory model,XMem),这两个模型以交互的方式集成在一起。

    • 1)用户通过点击视频中要跟踪的对象来定义目标对象。
    • 2)利用XMem根据时间和空间对应关系对下一帧目标进行掩码预测。
    • 3)利用SAM对掩码进行更精准的分割。
    • 4)在跟踪过程中,一旦发现跟踪失败,用户可以暂停和纠正。
    • 在这里插入图片描述
  • 通过实验证明,该方法在复杂场景下表现出良好的性能和高可用性,具有广泛的应用前景。此外,Zhu等人提出了一种名为高质量视频目标跟踪(high quality video object track,HQTrack)的框架。HOTrack包括两个主要部分:视频多目标分割器( video multi object segment,VMOS)和掩码优化器(mask refine,MR)。VMOS用于在视频的初始帧中将目标掩码传播到当前帧,但由于其是在几个类似的视频对象分割(video object segmentVOS)数据集上进行的训练,其泛化能力在复杂的边缘场景下会受到限制,因此初始阶段的掩码可能不够准确。为了改善跟踪掩码的质量,采用了一个预训练的掩码优化器模型来对跟踪结果进行优化。

  • HQ-Track的框架如图25所示,给定一个视频及其首帧上的参考掩码,HQ-Track 首先通过使用 VMOS技术对每一帧进行目标物体的分割。分割当前帧的结果是通过将第1帧的分割信息沿时间维度传播而来的,这一过程中考虑了目标物体的外观和识别信息,同时还建立了长期和短期的记忆模型。值得.提的是,VMOS是DeA0T(decoupling features associ-ating objects with transformers)技术的一个变种,因此在单一传播过程中能够对多个目标物体进行建模。此外,他们还采用HO-SAM作为一种元学习技术,用于优化VMOS生成的分割掩码。首先,从VMOS的预测结果中提取目标掩码的边界框,并将这些边界框作为提示信息输人到HO-SAM模型中。最后,研究中引入了一个掩码选择器,用于在 VMOS和 HQ-SAM生成的分割掩码之间进行选择,以得到最终的结果。这一流程的设计有助于提高分割的准确性和质量。通过实验,HQ-Track模型展示了强大的目标跟踪和分割功能。

    • 在这里插入图片描述
  • Yao等人提出了一种基于SAM驱动的无人机夜间实时跟踪(SAM-powered domain adapta-tion,SAM-DA)框架。如图26所示,这是一种使用SAM 自动分割能力进行跟踪的方法。它具体通过使用 SAM 的自动分割功能从每个夜间图像自动确定大量高质量目标域训练样本,从而跟踪夜间无人机。

    • 在这里插入图片描述
  • SAM 在视频对象跟踪和分割方面的应用表明了其作为分割基础模型的巨大潜力。尽管在面对未见数据和零样本场景等方面存在一些挑战,但通过与现有的跟踪器结合以及稀疏点跟踪的应用,SAM能够在视频中有效地跟踪和分割对象。这些方法为计算机视觉社区提供了一种强大的工具,可用于在通用场景中进行任意对象的跟踪,从而推动了视频分析和监控等领域的进展。SAM的泛化性使其在处理复杂的视觉数据时表现出色,为未来的研究和应用提供了新的方向。

视听定位分割
  • SAM除了在计算机视觉领域内的应用之外,在音频和视觉的融合领域也有应用。音频和视觉是两种高度相关的模态,它们能够相互补充,以此来解决许多复杂问题。近年来,对于联合音频一视觉学习的研究也在不断增加,其主要目标在于探索并学习这两种模态之间的内在关联,从而在各种任务中获得更出色的性能表现。其中,比较受关注的音频一视觉学习应用之一是声音定位和分割,该任务的核心目标在于准确预测视频中各个声音源的空间位置。然而,音频-视觉定位和分割任务往往具有复杂的问题特性,因为音频信号并不自然地与视频中的所有对象进行精确对齐。尽管如此,随着深度学习领域的最新进展,研究人员已经成功地开发出多种有效的方法来应对这一挑战,从而为音频-视觉学习领域带来了新的机遇。

  • Mo和Tian提出了一个简单且有效的基于SAM的视听定位和分割模型(adudio-visual SAM,AV-SAM)。该模型可以在输人的视频中生成与音频对应的声音对象的掩码。如图27所示,首先利用SAM中预先训练的图像编码器的视觉特征和经过音频编码器提取的音频特征的像素级视听融合模块来聚合表示音频和视觉的交叉模态特征。然后,将聚合的交叉模态特征输人掩码解码器,最后和提示编码器输出的提示编码经过掩码解码器生成最终的视听定位分割掩码。最后在FickrSoundNet和AVSBench两个数据集上进行了实验,结果表明,AV-SAM在视听定位分割方面有着比较好的性能。

    • 在这里插入图片描述
  • 考虑到现有的“音频-视觉”学习方法通常需要对视听掩码对(音频与图像之间的对应关系)进行细粒度标注,这一过程采用监督学习方法。然而,这种依赖于监督学习的方式限制了这些方法的泛化性因为获取跨模态像素级标签需要消耗大量的时间和工作成本。为了克服这一挑战,Bhosale 等人提出了一种跨模态语义过滤模型,无需特定任务的数据标注和模型训练就可以生成音频对应的分割掩码。这一方法的引人使得“音频-视觉”学习更加灵活和高效。

  • 如图28所示,该模型上面的部分使用音频标签(audio tag,AT)模型为音频分配描述性标签,代表乐器、环境声音等特征。然后将音频标签和视频图像帧输人给预训练好的 GroundingDINO模型中,在图像帧中生成边界框。这些生成的边界框被用来作为SAM的视觉提示。模型的下面部分使用开放世界目标检测器(open world object,OWOD)对图像中的目标生成检测框,这些检测框通过阈值进行过滤。

    • 在这里插入图片描述
  • 为了将检测框和音频的模态结合在一起,利用ImageBIND提取图像和音频的特征,然后利用图像和音频的余弦相似度对SAM生成的掩码进行排序,最后输出高于设定阈值的掩码作为结果。在AVS-Bench数据集上的大量实验结果表明,在复杂场景中存在多个听觉对象的情况下,与现有技术所采用的监督方法相比,这种无监督方法表现出了出色的性能。尤其值得注意的是,在现有的监督式音频-视觉学习方法难以应对重叠前景对象的情况时,该模型仍然可以准确地分割重叠听觉对象。

其他方向

点云分割
  • 点云分割是计算机视觉和计算机图形学领域的重要任务,涉及将三维点云数据分割成具有语义信息的子集或部分,以便进一步分析和处理。点云分割通常用于从三维传感器(如激光雷达或深度摄像头)捕捉的数据中提取有用的信息,包括自动驾驶、机器人导航、工业自动化、建筑信息模型(building information modelling,BIM)等领域。

  • 随着 SAM 的提出,Liu等人提出了一种名为分割任何点云序列(segmentation any pointcloud sequences,Seal)的新型框架,它利用SAM来分割各种不同的汽车点云序列。如图29所示,Seal具有3个新的特性:

    • 1)可扩展性。Seal将视觉基础模型(vision foundation model,VFM)直接转化为点云,消除了在预训练过程中需要2D或3D标注的需求。
    • 2)一致性。在摄像机到激光雷达(laser radar,LiDAR)和点到分割阶段都强制执行了空间和时间关系,促进了跨模态表示学习。
    • 3)通用性。Seal以一种即插即用的方式实现知识传递,适用于涉及各种点云的下游任务,包括来自真实/合成、低高分辨率、大/小规模和干净/受损数据集的任务
  • 通过对 11个不同点云数据集进行实验,展示了Seal的有效性和卓越性能。值得注意的是,Seal在经过线性探测后在 nuScenes 数据集达到了45.0%mloU,超过了随机初始化 36.9% mloU,并在 mloU上胜过了以前的方法6.1%。此外,Seal在11个测试的点云数据集上,在20个不同的少样本微调任务中都展现出明显的性能提升。通过实验证明,SAM是大型二维和三维表示学习中间的一个桥梁,展现了SAM在3D点云分割领域的应用潜力。未来的工作可以进一步考虑从不同的数据集中聚合更丰富的数据进行预训练,从而进一步提高该框架的泛化能力。

    • 在这里插入图片描述
三维重建
  • 三维重建是一种数字计算方法,用于创建物体或场景的三维模型,从二维图像或其他感知数据中还原出物体的三维结构。因为SAM能够对二维图像中的任何物体进行分割,因此也有研究人员将SAM应用到三维场景中。

  • Cen 等人利用神经辐射场(neural radia-tion field,NeRF)作为一种较好利用现有先验的方法,将多视角的2D图像映射到 3D 空间中。这个方法称为分割一切3D(segment3D,SA3D)。该方法的设计使得将 2D图像转化为3D表示更加容易且高效,为多视图数据的处理提供了一种强有力的工具。

  • 如图30所示,在SA3D中,基于一组多视图2D图像的NeRF训练,采用以下步骤将这些图像映射到三维空间中。首先,SA3D接受来自单个视图的目标对象提示作为输人,并使用SAM在该视图中生成一个2D掩码。接着,SA3D执行掩码逆绘制和交叉视图的自我触发交替过程,以构建目标对象的三维掩码,该掩码由体素网格组成。根据NeRF中学习到的密度分布,进行掩码反渲染,将SAM生成的 2D掩码投影到三维掩码上。同时,交叉视图的自我提示用于从 NeRF渲染的2D掩码中自动提取可靠的提示,并作为SAM的输人。这一交替过程会反复进行,直到获得完整的三维掩码。

    • 在这里插入图片描述
  • 通过这种方式,SA3D能够有效地将多视图2D图像转化为具有三维表示的掩码。与基于NeRF 的先前方法相比,SA3D可以轻松适应任何预训练的NeRF,无需进行任何更改和重新训练。SA3D的应用领域广泛,包括机器人技术、增强现实和虚拟现实等。未来的研究可以进一步探索SA3D在这些领域的潜力,开发新的应用场景,推动三维场景理解技术的发展并带来更多的实际应用。

可控图像字幕生成
  • 可控图像字幕生成是一项重要的计算机视觉任务,旨在使用自然语言根据人类目标解释图像。它在计算机视觉和自然语言处理领域具有广泛的应用,包括机器人技术、图像检索和基于内容的图像搜索等。随着深度学习技术的迅猛发展,图像字幕生成领域取得了显著的进展。然而,这种交互式的图像字幕生成的可用性和泛化性需要大量具有良好注释的多模态数据进行保证。因此,Wang等人提出了一种可控图像字幕生成方法是任何字幕(caption anything,CAT)。如图 31所示,CAT方法引人了多模态控制,以使生成的图像字幕与用户意图相符,能够呈现不同的视觉焦点和语言风格。

    • 在这里插入图片描述
  • 该方法构建了一个三元解决器,包括分割器、字幕生成器和文本优化器。分割器利用交互式视觉控制,通过像素级掩码来表示用户感兴趣区域。随后,字幕生成器根据原始图像和提供的掩码生成与指定区域相关的自然语言描述。为了帮助字幕生成器更好地聚焦在用户感兴趣的对象上,还设计了一种逐步推理的视觉思维链技术。最后,文本优化器通过结合用户定义的语言控制来优化原始描述,以满足用户的语言风格偏好

  • CAT方法是一种无需训练且可适应性强的可控图像字幕生成解决方案。它扩展了支持的控制信号范围,增强了模型的灵活性和可扩展性,并提供了强大的用户交互能力。该工作突出了多模态控制和提示在可控图像字幕生成中的重要性,并为该领域的未来研究方向提供了深人的见解,促进了交互图像分析和解释的发展。

数据标注
  • 在人工智能领域,数据标注是将数据标记为帮助机器学习算法学习识别特定模式、对象或特征的过程。准确的数据标注对于开发能够成功执行对象检测、分类和自然语言处理等任务的有效机器学习模型至关重要。然而,在某些领域,特别是图像和视频标注的成本较高,导致许多数据集在像素级别上没有被有效标记。SAM(提示式分割模型)的出现,有望促进这些数据集的有效标注。

  • He等人提出的文本分割一切模型(segment anything model text,SAMText)是一个可扩展的流水线,用于在视频中标注场景文本掩码。该流水线利用SAM 生成了一个名为SAMText-9M 的大规模数据集,其中包含超过2400个视频片段和900多万个掩码标注。SAMText的目标是更细粒度地标注场景文本,以显著提高检测和识别性能,甚至在处理弯曲文本时也能取得良好效果。此外,该论文还探讨了一些潜在的研究方向,如研究掩码标注的效果、提高数据和模型的可扩展性,以及生成字符级别的掩码标注。

  • 在遥感图像分割方面,Wang等人提出了一种构建大规模遥感图像分割数据集(remotesensing image segmentation model,SAMRS)的方法。SAMRS通过利用现有的遥感目标检测数据集和以数据为中心的机器学习模型SAM,生成了包括对象类别、位置和实例信息的大规模遥感图像分割数据集。SAMRS可用于语义分割、实例分割和目标检测研究,为遥感图像分割领域提供了有价值的资源,同时也有潜力提高数据标注的效率。

  • 此外,SAM还可以使得生成高质量的伪标签变得简单、快速和高效。这些伪标签可以用于训练和测试各种计算机视觉模型,从而在对象识别、语义分割和其他相关任务中取得先进的结果。例如,He等人提出了一种弱监督多目标语义分割的方法,利用SAM生成分割掩码并使用多增强结果融合像素级不确定性加权等技术来获取可靠的伪标签。Chen 和 Bai则介绍了一种预训练热红外图像分割模型的框架,利用SAM生成的伪标签来提高特定类别分割的准确性。Jiang和Yang提出了一种弱监督语义分割方法,通过SAM生成具有精确边界的对象掩码,可生成用于训练分割网络的伪标签。

  • 从前面的研究可以看出,SAM在数据标注领域的应用为机器学习模型的训练和测试提供了强大的工具,有望推动计算机视觉研究和应用的发展。这些方法不仅提高了数据标注的效率,还为解决各种计算机视觉任务提供了更多的可能性。

  • 如图 32所示,目前在各个领域中应用SAM的策略大致可分为4种,

    • 第1种为在特定领域对SAM系列模型进行微调,从而提高SAM系列模型在该领域的性能;

    • 第2种是使用SAM系列模型辅助其他领域的特定模型,如使用SAM系列模型提取出来的高级特征输入到特定模型中可以提高模型的性能:

    • 第3种为利用SAM系列模型构建特定领域的数据集,从而丰富该领域的数据集,有助于提高模型的性能;

    • 第4种是使用生成提示模型来为SAM系列模型生成更强大的提示,从而提高模型的性能。

    • 在这里插入图片描述

未来研究方向

模块化

  • 尽管目前SAM已经在部分任务中展示了优秀的性能,但其效率和灵活性仍有待提升。随着SAM应用领域的不断扩展,众多应用纷纷提出对SAM具备新知识的要求。因此,需要模型具备领域适应和持续学习能力。未来可以考虑借鉴大型语言模型的模块化思想,在SAM 中引人新的模块化架构。在给定领域和任务的前提下,组合一套与当前领域任务相关的模块,以构建一个新型轻量级模型。在训练阶段,只有与当前任务相关的模块会进行更新,从而减少了模型的计算量。同时,还可以向SAM中添加新模块,使模型具备领域适应和持续学习能力。

弱监督语义分割

  • 在弱监督语义分割领域,通常需要进行模型分类的重新训练和伪标签的生成,这些步骤既耗时又复杂。最近有研究将SAM作为该领域的基础模型利用其强大的泛化能力,无需对模型进行微调即可获得满意的结果。然而,尽管SAM在许多明确场景中能够产生相对清晰的结果,但由于其模型本身不包含语义信息,因此在一些语义模糊的场景中,SAM难以生成准确的分割掩码。为了解决这一难题,未来可以考虑为SAM使用更多元的弱标签、加人额外的后处理模块来增强SAM的分割精度,提升其在弱监督语义分割方面的性能

多模态融合图像分割

  • 目前,SAM的提示输人主要包括点、目标框、分割掩码和文本提示等4种形式。然而,随着SAM应用领域的不断拓展,对提示输人形式也提出了新的要求。目前,对SAM的研究主要集中在2D视觉任务方面,未来可以考虑将其应用到3D 视觉任务中。同时,还可以考虑增加SAM提示的输入形式,例如设计一些模块将音频模态信息作为提示输入给SAM以完成与音频相关的分割任务。此外,将时间

对SAM进行高效率微调

  • 尽管SAM已广泛应用于各个领域,但在某些特定应用场景中,其性能相较于领域内其他先进的模型仍有所不足。研究表明,通过对SAM 进行特定领域数据集的微调,其性能会有所提升。然而,由于SAM模型较大,微调过程成本较高,因此,如何高效地进行微调成为重要问题。未来可以考虑在模型中加入新的模块,并在训练过程中冻结模型主体,仅更新特定的模块。这样可大大缩短模型训练成本,从而推动SAM在各种下游任务中的应用进行更深人的研究,并推动更强大的视觉基础模型的发展。

运用格式塔心理学的整体认知观加强SAM的对抗鲁棒性

  • 随着计算机视觉技术的迅速进步,对模型在抵抗对抗攻击方面的鲁棒性要求也日益提高。对抗攻击成为人们关注的焦点,这是一种针对模型的技术手段,通过向输人图像中添加微小且难以察觉的扰动,能够欺骗计算机视觉系统并产生错误结果,从而揭示模型存在的安全漏洞和潜在安全风险。近期有研究评估了SAM模型的对抗鲁棒性,发现其在对抗攻击下的表现仍有待提高。这种现象可能与深度学习过程中的局部认知有关。未来可以尝试将格式塔心理学的整体认知引人模型,以防止其在局部认知上的过学习,从而抵抗通过噪声进行的攻击。

conclusion

  • 分割一切模型的出现推动了计算机视觉领域对于视觉基础模型的进一步研究,但仍需克服一些关键技术挑战。本文总结综述了SAM的研究进展,不难看出,提高SAM的推理速度和精度是必要的,特别是在处理大规模数据时。技术研究应集中在优化模型结构、推理算法和硬件加速等方面,以提高性能。其次,SAM对大量标注数据的依赖成本高昂,限制了其在下游任务上的广泛应用。未来研究可以关注半监督或自监督学习方法,减轻数据标注负担,提高模型泛化能力。此外,SAM的抗攻击性需要加强,特别在安全应用中。鲁棒性的提升是关键,以确保面对对抗性攻击时的可靠性。SAM在智能视频监控、自动驾驶、医学图像分析和环境监测等领域也有广泛应用潜力,但需要深入技术研究和工程实践。最后,SAM可以通过与其他技术的集成,如增强学习、强化学习和因果推理,来提高性能并扩展应用领域。这种跨学科研究有望引领SAM技术的发展,创造更多创新和有益的应用。

  • 总体而言,SAM代表了计算机视觉领域的一项重要进展,但需要应对技术挑战。通过持续的研究和创新,SAM有望在多个领域产生更多影响。因此,研究SAM对于推动视觉基础模型的发展有着重大意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值