视觉分割大模型的过去、现在和未来!SAM最新综述来了!

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到Garfield来分享视觉SAM分割大模型的最新综述,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【AIGC】技术交流群  

论文作者 | Chunhui Zhang

自动驾驶之心特约解读 | Garfield

编辑 | 自动驾驶之心

ddca5bc3bc98c423c3e963a0ae8f30f3.png

1. 引言

基础模型是近年来在人工智能(AI)领域中取得革命性进展的一种模型,其通过对网络规模数据集的充分预训练和强大的零样本泛化能力,在广泛的下游任务中展现出了惊人的性能。最近,自然语言处理(NLP)领域也经历了重大变革,转向开发大型语言模型(LLMs),产生了一系列具有突破性的作品,如BERT、T5、GPT-3和GPT-4。其中这些模型最惊人的应用之一是ChatGPT,这是由OpenAI开发的一个AI聊天机器人,利用名为GPT-3.5的大型语言模型生成类人响应。

由于基础模型在NLP领域的巨大成功,研究人员受到启发,开始探索计算机视觉(CV)领域中的大型视觉模型(LVMs)。其中一条研究线是探索将视觉变换器扩展到极大规模,追求LLMs所展现的新兴能力,例如ViT-G、ViT-22B、Swin Transformer V2和VideoMAE V2。此外,大量的工作致力于添加附加模态的知识,以增强LVMs的能力。一些值得注意的例子包括CLIP和ALIGN,它们采用文本编码器和图像编码器,使用对比学习从海量嘈杂的图像-文本数据中学习图像和语言表示。在预训练之后,学习到的语义知识可以用于参考新的视觉概念,从而使模型具备在各种下游任务中的零样本迁移能力,例如图像-文本检索和图像生成。

尽管这些进展为CV的发展带来了新的动力,但所获得的深度模型的泛化能力仍然有限。最近,CV社区正在探索面向任务的基础模型。这些模型的一个共同特征是依靠在广泛数据集上预训练的基础模型,使用可以解决各种下游任务的提示学习,从而具备了强大的零样本泛化能力。这种新的研究趋势是基于称为"分割任何物体模型(SAM)"的模型,它是针对一般图像分割而设计的可提示模型。SAM在1100万个图像上训练了一个可提示模型,使用了能够实现强大零样本泛化的可提示分割任务。许多研究人员,如Jim Fan,认为这是"CV的GPT-3时刻,因为SAM已经学习了从大规模数据集中提取的通用视觉知识,并通过提示学习具体任务使其具有强大的泛化能力。

2. 背景介绍

本节然介绍了图像分割、交互分割和基础模型三个方面的内容。首先,图像分割是一个基础的计算机视觉任务,将数字图像分成多个部分并将每个像素分配给一个类别或对象。传统的分割包括语义分割、实例分割和全景分割三个主要任务,并且有很多研究探索了这些任务。其次,交互分割是一种特殊的分割任务,它利用用户交互的指导信息进行分割。用户提供一些初始输入,例如点、笔画或边界框,以指示对象的大致位置和形状,然后算法根据用户反馈迭代地进行分割。交互分割在许多需要精确对象提取的应用程序中非常有用。最后,基础模型是一种新的人工智能系统建模方法,基于大规模数据的预训练大型神经网络,常使用自监督学习技术。这使它们能够学习通用表示和能力,可转移到不同的领域和应用程序。在自然语言处理领域,基础模型已经被广泛用于各种任务,如BERT、T5和GPT系列。现出卓越的性能。代表性的模型包括CLIP、ALIGN、Florence、VLBERT、X-LXMERT和DALL-E,这些模型尝试捕捉视觉和语言之间的跨模态交互,可以被转移或直接应用于分类、检索、目标检测、视频理解、视觉问答、图像描述和图像生成等任务。

然后是前段时间大热的Segment Anything这个模型的简单介绍。SAM是Meta在2023年的Segment Anything(SA)项目中提出的一种模型。该项目的研究人员试图构建一种类似于在自然语言处理和计算机视觉领域中表现出强大性能的基础模型,以统一整个图像分割任务。然而,分割领域中的可用数据不足且与设计目的不同。因此,他们将路径分为三个步骤,即任务、模型和数据。相应地,提出了一个包括可提示的分割任务(提示包括提供分割目标的位置、范围、掩模或文本描述)、可以接受多个提示输入并实现交互使用的SAM和使用交互式训练注释循环过程的数据引擎形成的数据集SA-1B的分割任务项目。

SAM的结构主要由三部分组成:强大的图像编码器、prompt编码器和mask解码器。其中,图像编码器采用了MAE预训练的ViT,prompt编码器分为稀疏输入和密集输入,mask解码器采用了prompt-image双向Transformer解码器。在训练过程中,使用了focal loss和dice loss等损失函数。由于训练数据不足,研究人员使用训练-注释迭代过程形成数据引擎,同时实现模型训练和数据集构建。具体而言,这个过程分为三个阶段:辅助手动阶段、半自动阶段和全自动阶段。在最终的SA-1B数据集中,包含了1.1B个掩模和11M张图像。与SAM研究并行的是许多努力用其他通用方法解决分割任务的工作,例如OneFormer、SegGPT和SEEM等模型。这些模型采用不同的策略和技术,以解决图像分割的挑战。

3. 方法总结

3.1 Software Scenes

0aed2ebfbb504e75fd5adef6e9a78997.png

Image Editing:文章介绍了Inpaint Anything(IA)和Edit Everything这两个方法。这些方法利用SAM的特性,通过简单的提示,如点或框,生成精确的掩模,从而帮助用户完成图像编辑和修补任务。IA使用SOTA的图像修复器,如LaMa,和AI生成内容(AIGC)模型,如Stable Diffusion(SD),实现了物体删除、物体填充和替换的功能。Edit Everything与IA类似,使用SAM将图像分成几个片段,然后使用CLIP对其进行排序,选择得分最高的片段并使用SD生成替换物体。与IA不同的是,它使用了更大规模的模型来处理中文提示,并将复杂的提示分解为较小的实体,以便逐个替换。

2bd02bd8ba586268a5e4a7f4fb66f996.png

Style Transfer:文章介绍了Any-to-Any Style Transfer,它利用SAM的区域选择能力,使用户能够指定要选择的样式区域以及应在哪些内容区域应用样式。该方法可以作为现有风格转移方法的插件使用,具有广泛的应用前景。

3.2 Real-World Scenes

b34ab802e8d4a37da4794b0909cb8613.png

Detection:SAM可以通过训练一个目标检测器来实现。在训练过程中,首先需要将训练数据标注为目标物体和背景,并使用这些数据来训练目标检测器。训练完成后,目标检测器可以用于检测新的输入图像中的目标物体。

Counting:在物体计数方面,SAM可以实现几种不同的方法。一种方法是使用SAM进行图像分割,然后将分割出的每个目标物体作为计数对象。另一种方法是使用SAM生成目标物体的特征向量,然后使用这些特征向量来计算相似度,从而确定计数对象的数量。

bc3da0dc05ebd4010afa57e88f2d4dfe.png

Moving Object:SAM可以通过分割移动物体的像素来实现。在这种情况下,SAM可以使用一些先验知识来帮助识别移动物体,例如运动模型或深度信息。此外,SAM还可以结合事件数据进行移动物体检测,这些事件数据提供了关于场景中物体运动的额外信息。

SAM在物体检测、物体计数和移动物体检测方面的应用非常广泛,可以根据不同的应用场景和需求进行定制化的设计和改进。SAM能在这些场景下发挥关键作用的原因主要有以下几点:

  1. SAM是一种基于深度学习的大型语言模型,具有强大的学习和泛化能力,可以从大量的数据中学习到物体的形态、纹理和其他特征,并能够适应不同的场景和任务需求。

  2. SAM使用了一些先进的技术,如图像分割、目标检测和运动估计等。这些技术已经在计算机视觉和深度学习领域得到广泛应用,可以帮助SAM在不同的场景下实现高效、准确的物体检测、计数和移动物体检测。

  3. SAM在许多真实场景中具有广泛的应用,例如医疗、农业、制造和遥感等领域。这些场景通常涉及到大量的数据和复杂的物体形态,需要强大的计算和学习能力,而SAM正是具备这些能力的。

  4. SAM还具有零样本学习的能力,能够在没有先验知识的情况下学习新的物体。这种能力在真实场景中非常有用,因为在实际应用中,我们经常会遇到未知的物体,而SAM可以通过学习来识别和检测这些新的物体。

3.3 Complex Scenes

SAM由于其强大繁华能力,在一些比较复杂的场景中也有较强的应用。

5e0179753a3728bace6349eb5a98233b.png

Low-Contrast Scene方面,SAM模型已经被应用于多个领域,包括伪装目标分割、植物表型学、弱监督伪装物体分割和玻璃分割等任务。在伪装目标分割方面,SAM模型的表现与其他领先的基于Transformer的模型相比稍逊,需要结合领域专业知识来提高其性能。在植物表型学方面,SAM模型通过与四个后处理步骤相结合,能够识别仅带有叶子对象的图像,但其性能不如经过微调的Mask R-CNN。在弱监督伪装物体分割方面,SAM模型通过伪标签和多尺度特征组合的方法,能够更好地学习模型和区分物体和背景,但其性能仍有提升空间。在玻璃分割方面,SAM模型能够成功地识别透明物体后面的对象,但无法识别透明物体本身,因此暂不适用于具有玻璃的安全关键场景。

17e58558e5e4b7c7919791993228cbc1.png

Thermal Infrared Image方面,由于热红外图像通常比较暗,难以进行像素级注释,因此SAM模型已被用于生成伪标签,并构建了一个大规模的热红外图像分割数据集SATIR,其中包含超过10万张带有像素级别标注的图像。利用SAM模型预训练的骨干网络,可以显著提高热红外图像语义分割的性能,并在公共数据集SODA上取得了最好的结果。此外,SAM模型还被应用于家禽分割任务,在这个领域中,SAM模型的性能优于其他基线方法,但在识别家禽的任意部位时存在一定的局限性。

Overhead Image方面,SAM模型已经被应用于遥感图像处理和地质勘探等领域。在遥感图像处理方面,SAM模型在多个遥感图像分割基准测试中表现出良好的泛化能力,但在某些具有独特特征的目标物体上可能会失败。因此,一些研究者通过引入领域特定的解码器来改进SAM模型,以适应特定的问题和任务。此外,SAM模型也被应用于生成大规模的遥感图像分割数据集,并通过结合不同的基础模型,如SAM和Grounding DINO等,实现了遥感图像的文本提示分割。

4. 其它方面的应用

4.1 Vision Related Applications

4.1.1 Medical Imaging

医学图像分割旨在揭示医学图像中的解剖或病理结构,可以协助计算机辅助诊断和临床手术。由于计算能力和医学数据资源的快速发展,基于深度学习的医学图像分割相对于传统方法在准确性和速度上取得了重大进展。最近,基于视觉Transformer(ViT)的方法在医学图像分割方面取得了超越性能,但它们缺乏在其他任务上的泛化能力。SAM被提出以在统一框架内解决多种分割任务,研究人员已经将SAM定制为医学图像分割,并总结出有用的策略来提高其性能。医学图像可以分为六种格式,包括CT图像、MRI图像、结肠镜图像、H&E染色组织切片图像、多种格式图像和其他格式图像,SAM已经应用于所有这些图像格式。

7f52c3898dbdabc26857d908a8471223.png

下面是按点对各种医学图像的应用方法进行概括:

CT图像

  • CT扫描结合了从身体不同角度拍摄的X射线图像,并使用计算机处理来创建身体内部骨骼、血管和软组织的横截面图像。

  • SAM可用于医学图像分割,可以定制为医学图像分割并应用于各种医学图像格式,例如CT图像、MRI图像和结肠镜图像等。

  • SAMed是一种基于SAM的解决方案,用于医学图像分割。它通过应用低秩基准的微调策略来定制SAM模型,以进行医学图像分割。

MRI图像

  • MRI是一种无创诊断成像技术,利用强大的磁场、无线电波和计算机来产生身体内部结构的详细图像。

  • SAM可以应用于MRI图像分割,例如用于脑部和脑肿瘤的分割,以及其他软组织分割。

  • SAM在MRI图像分割上的表现比其他分割方法更加准确和鲁棒。

结肠镜图像

  • 结肠镜是检查肠道的一种检测方法。

  • SAM的一个应用是进行结肠息肉分割,使用Polyp-SAM模型可以实现高质量的分割。

H&E染色组织切片图像

  • H&E染色组织切片是用于显微镜检查的组织样本,经过染色后以便于观察。

  • SAM可以用于肿瘤、非肿瘤组织和细胞核等分割任务,对于大型连通对象的分割表现出色,但仍存在着几个局限性。

  • SAM也可用于生成mask、特征和稳定性分数,以构建和训练更高级的医学图像分割模型。

多种格式图像

  • SAM可用于处理多种类型的医学图像,例如CT图像、MRI图像、结肠镜图像、H&E染色组织切片图像等。

  • SAM可以通过微调策略进行定制,以适应各种医学图像分割任务,并且可以有效地进行多分割任务。

4.1.2 Video
94f9971b06f56a973f901abdc040f4c9.png

SAM在计算机视觉中的应用还包括视频目标跟踪和分割。视频目标跟踪是在视频帧中定位特定对象并随后在整个视频中跟踪它的过程,具有监控和机器人等多种实际应用。SAM在视频目标跟踪领域做出了突出贡献,提出了Track Anything Model (TAM)和SAM-Track两个跟踪模型,均具有优异的交互跟踪和分割性能,能够应用于复杂场景中的多种领域。

115d8bfadf198b55d26e7e84dd2371c2.png

此外,SAM还在视频超分辨率(VSR)中显示出潜力,提出了一种利用SAM构建更稳健、具有语义意识的先验的方法,同时设计了一个轻量级模块SEEM来提高现有方法的性能,实验结果表明,SEEM能够提供更优秀的性能。

4.1.3  Data Annotations

SAM已经被应用于各种计算机视觉应用的数据标注中。以下是一些例子:

  • SAMText是用于视频场景文本mask标注的可扩展方法。它利用SAM在一个大型数据集SAMText-9M中生成mask标注,该数据集包含超过2400个视频剪辑和超过900万个mask标注。该管道对场景文本进行更精细的标注,可以显著提高检测和识别性能。

  • SAM已经被用于利用现有的遥感目标检测数据集构建一个大规模的遥感图像分割数据集SAMRS。SAMRS包括目标类别、位置和实例信息,可以用于语义分割、实例分割和目标检测研究。SAM提高了标注效率,在尺寸上超过了先前存在的高分辨率遥感图像分割数据集。

  • SAM使生成高质量伪标签变得非常容易、快速和高效,这些伪标签可以用于训练和测试各种计算机视觉模型。SAM已经被用于各种弱监督语义分割框架,如WS-SAM、热红外图像分割和廉价注释提示。

  • WS-SAM利用SAM生成分割mask,并提出了几种技术来获得可靠的伪标签,用于训练分割模型。

  • 热红外图像分割框架使用SAM生成的伪标签进行预训练,并提高了特定类别分割结果的准确性。

  • 廉价注释提示方法利用SAM输出具有精确边界的目标掩mask,用于生成训练分割网络的伪标签。实验表明,SAM可以作为有效的伪标签生成器。

4.2 Beyond Vision

4.2.1 3D Reconstruction
2f87024cbed2803efab9a12e975690b1.png

SA3D是一个基于NeRF的框架,除了实现精细的3D分割外,还可用于3D重建。通过前一部分获取的3D掩模网格,可以确定物体在3D中的占用空间并以多种方式进行重建。由于NeRF方法具有高内存需求和计算复杂度,目前仅适用于相对较小的场景,无法处理大规模的户外场景。为应对这一挑战,一些研究提出了使用深度图和表面法线等附加输入模态来改善基于NeRF的3D重建的效率和精度。SAM是一个用于2D图像分割的SOTA方法,可以使用用户指定的提示分割任何内容。SAM可用于各种应用,如目标检测、图像检索和图像合成。然而,SAM目前仅限于2D图像数据,不能直接应用于3D场景理解。

8c04d06daafe58170649b5954243c188.png

SA3D框架将SAM的分割能力扩展到3D场景中,通过利用NeRFs实现。SA3D可以在单个渲染视图中使用一次手动提示来分割3D场景中的任何对象。SA3D利用掩模反向渲染和交叉视角自我提示技术,将2D掩模投影到3D掩模网格上,并为不同视角生成新提示。与基于NeRF的先前方法相比,SA3D可以在不改变和重新训练任何预训练NeRF的情况下轻松适应它们。

4.2.2 Non-Euclidean Domain
e6cda3026ada550af9e3f029d22b5ea3.png

Non-Euclidean领域的图神经网络指的是没有预定义结构的不规则图形。由于图形的复杂性和异质性,这个领域在开发通用图分析模型方面存在挑战。现有方法,如Graph Convolutional Network(GCN)、GraphSAGE和Graph Attention Network(GAT),已被提出来解决这些挑战。然而,仍需要更具通用性和适应性的模型。

最近Meta提出了SAM,这是一个基于提示的通用图像分析框架,允许用户输入自然语言提示进行各种图像相关任务。非欧几里得中的“Segment Anything in Non-Euclidean”(SNA)范式在SAM的基础上构建,旨在开发一种灵活且适应性强的通用图分析基础模型。SNA方法引入了一种专用的“slimmable”图卷积层,可以根据输入特征维度动态激活或关闭通道。此外,该方法采用元学习策略,以选择下游任务的最优神经元,实现对多样化图样本和任务的处理。SNA范式有望启发未来研究,在非欧几里得的图神经网络领域中开发更具通用性和适应性的基础模型。

4.2.3 Robotics
465d8214ae6900e9b1892712ec5098e1.png

本文介绍了一种名为Instruct2Act的框架,利用大语言模型将多模态指令映射到机器人操作序列。该框架采用大语言模型生成Python程序,用于机器人任务的感知、规划和执行循环。Instruct2Act框架通过使用预定义API访问多个基础模型,如SAM和CLIP,将复杂的高级指令转换为准确的策略代码,从而实现了各种指令模态和输入类型的灵活适应,满足特定任务需求。该框架在不同的桌面操作场景中进行了验证,表现出实用性和高效性。Instruct2Act框架提供了一个有前途的方法,通过利用基础模型和大型语言模型的强大能力,使机器人能够执行复杂任务。

4.2.4 Video Text Spotting
5971cf741530d7ca3307a2a5d14f89a3.png

视频文本定位识别是一项具有挑战性的任务,涉及在视频帧或序列中定位和识别文本实例。传统的视频文本定位识别方法依赖于检测边界框和在边界框内识别文本实例。然而,这些方法在准确定位具有不规则形状或方向的文本实例方面存在局限性。

近年来,基于分割的方法,如SAM(Segmentation-aware Meta-embedding)模型,显示出解决这些限制的潜力。SAM模型利用深度神经网络为文本实例生成像素级分割掩模,从而获得更准确和细粒度的注释。因此,SAMText方法提供了一种可扩展和高效的解决方案,用于生成视频文本定位识别任务的掩模注释。SAMText方法利用SAM模型对边界框注释进行处理,生成大规模视频文本数据集的掩模注释,例如SAMText-9M数据集。

SAMText方法在视频文本定位识别任务中生成掩模注释是一种创新方法,但它建立在SAM模型的基础上。SAM模型能够为图像中的对象生成高质量的像素级掩模注释,SAMText方法将这个能力适应于生成视频帧中文本实例的掩模注释。给定一个输入的场景文本图像或视频帧,SAMText首先从现有注释中提取边界框坐标或从场景文本检测模型中派生。如果框是带方向的,SAMText将计算它们的最小包围矩形以获取水平边界框(HBB),然后将其用作SAM模型的输入提示,以获取掩模标签。SAM模型是一个分割模型,预先在自然图像上进行预训练,并在COCO-Text数据集上进行微调,以生成文本实例的掩模注释。在获得每个文本实例的掩模后,可能需要进行后处理以确保其连通性。特别是,如果掩模包含多个分段,则可能希望推导出最小的包含掩模作为可选步骤,以获得更连贯的表示。此外,光流估计还可以用于提高生成的掩模的准确性并确保其时间上的一致性。

SAMText方法为未来研究提供了一个充满活力的途径,用于视频文本定位识别任务的细粒度掩模注释。通过为大规模数据集提供细粒度的掩模注释,SAMText使得更准确和有效的视频文本定位识别模型的开发和评估成为可能。此外,SAMText方法可能激发其他计算机视觉任务的基于分割的新方法的发展。

4.2.5 Vision and Language

文章介绍了SAM模型在视频文本定位识别和遥感图像语义分割任务中的应用,以及CAT框架中SAM模型在可控制图像描述任务中的应用。SAM模型是一种基于分割的模型,可以利用各种视觉提示来实现零样本分割,并且在各种图像领域中表现良好。

1dda85cba54c687e3732a2fc288a6612.png

SAMText是一个基于零样本学习的视频文本定位识别方法,使用了SAM模型生成细粒度的文本实例掩模注释。该方法首先使用文本检测算法检测视频中的文本区域,然后利用SAM模型生成文本实例掩模,即对每个文本实例生成一个二值掩模用于定位。最后,通过将文本实例掩模与视觉特征结合起来,可以达到视频文本定位识别的目的。

011812f8f99d2a15760fe8e6d727ec80.png

Text2Seg是一个用于遥感图像语义分割的方法,它整合了多个视觉基础模型,包括SAM模型,以生成视觉提示用于SAM模型的语义分割。由于遥感图像数据集通常具有不同的数据分布和标签稀疏性,传统模型在处理这种数据时往往表现不佳。Text2Seg方法通过整合多个视觉基础模型,利用它们的不同优势生成视觉提示,以提高语义分割的精度。

e0e7227c3e0cd7dfae3456a8ad7246f1.png

CAT框架是一个可控制的图像描述方法,它采用了SAM模型作为分割器,并通过视觉提示与用户交互,实现了对图像描述的多模态控制。CAT框架包含三个组件:分割器、描述器和文本细化器。分割器使用SAM模型生成图像中感兴趣的区域,描述器生成初始的图像描述,文本细化器通过用户定义的语言控制来优化图像描述。CAT框架的主要贡献在于,它提供了一种可控制的图像描述方法,可以实现对图像描述的灵活控制,同时保持语义准确性。

4.2.6 Audio and Vision
7cbd363c0a0b2614d6f60a74dbd82826.png

Audio-visual learning 是深度学习领域的一个分支,旨在利用音频和视觉模态提供的互补信息,以改进各种任务的性能。其中最受欢迎的应用之一是声音定位和分割,在此领域中,深度学习方法已经被开发出来,用于对齐音频和视觉信息,以实现更好的性能。一种方法是学习可以对齐音频和视觉信息的跨模态表示,另一种方法是使用对比学习学习跨模态对应关系。除了声音定位和分割之外,视听学习的其他应用包括视听空间化、音频事件定位和视听解析。总的来说,视听学习是深度学习领域中一个重要的分支,具有许多在各个领域中的应用,我们可以期待未来会有更多创新的方法出现。

SAM模型在视听学习领域也有很多应用。比如,一些研究者使用SAM模型进行音频-视觉分割,其中音频特征和图像特征通过SAM模型进行像素级别的融合,以生成音频-视觉分割掩模。此外,SAM模型还被用于实现可控制的音频描述,例如,利用SAM模型对音频信号进行分割,生成音频分割掩模,然后通过交互式文本输入,用户可以控制生成的音频描述。这些应用显示出SAM模型在视听学习领域中的潜力,并为未来研究提供了新的思路。

4.2.7 Multimodal Visualization and Open-Vocabulary Interactive Segmentation
ebe6eb11db079e6d1e87eaa14fc37e58.png

CLIP能够在视觉任务上实现令人印象深刻的性能,而且可以只进行最少或不进行任务特定的训练。但是,其内部机制尚不为人所理解。最近的一项研究将CLIP应用于开放词汇互动分割任务,该任务涉及在推理阶段通过用户指导以点、涂鸦或框的形式对图像中的目标对象进行分割。所提出的方法完全通过使用仅包含文本输入的CLIP手术来替换手动点的需求,该方法提供了从文本输入获得像素级结果的能力,这些结果可以轻松转换为SAM模型的点提示。具体而言,作者选择在相似性地图中排名靠前的前景点,并使用排名最后的相同数量的点作为背景点。作者表明,他们的方法在四个数据集上在点的准确性和mIoU方面都优于其他可解释性方法与SAM模型的表现。

所提出的方法比SAM中其他提示格式具有多种优点。首先,该方法仅需要文本输入,而不需要SAM论文中所建议的手动点的注释成本。其次,点提示优于掩码提示,因为SAM的掩码提示是为其自身的输出逻辑而设计的,生成的点比另一个模型的掩码更合适。最后,文本到点的转换比文本到框的解决方案更易于实现,后者需要微调或额外的监督。所提出的方法对于在多模态设置下解释CLIP也有着重要的意义。多模态可视化是探索CLIP内部机制的一个有前途的方向。通过在训练期间可视化图像-文本对,作者能够观察与CLIP学习过程相关的有趣现象。然而,所提出的方法并没有完全解释CLIP是如何能够从文本输入中生成像素级结果的,这表明需要进一步的研究来更好地理解CLIP在开放词汇任务上令人印象深刻的性能背后的机制。

5. 结论

这份综述是首次全面回顾了用于计算机视觉和其他领域的SAM基础模型的最新进展。首先,我们总结了基础模型的发展历史,包括大型语言模型、大型视觉模型和大型多模态模型,以及关于SAM的基本术语。重点关注SAM在各种任务和数据类型中的应用,总结和比较了SAM及其后续工作的并发研究。然后,讨论了SAM在广泛的图像处理应用中的巨大潜力,包括软件场景、现实场景和复杂场景。我们还分析和总结了SAM在各种应用中的优点和局限性。这些观察结果可以为指导未来的研究开发更强大的基础模型,进一步提高SAM的鲁棒性和泛化能力提供一些见解。最后,我们总结了SAM在视觉和其他领域中的大量其他惊人应用。附录以表格形式提供了SAM开源项目的初步摘要。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,如果您希望分享到自动驾驶之心平台,欢迎联系我们!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码免费学习)

9a31a1ba450c521f279c80ecf2aa9f0a.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

8ddb1df194b5493401e355cacc911b28.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

01ac38cb267c25b13d8d6650e94d1c2b.jpeg

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值