SAM(Segment Anything Model)最新顶会文章汇总

CVPR 2024

Endow SAM with Keen Eyes: Temporal-spatial Prompt Learning for Video Camouflaged Object Detection

赋予 SAM 敏锐的洞察力:用于视频伪装目标检测的时空即时学习

文章链接        代码链接(未公开)

摘要:Segment Anything Model (SAM) 是一种即时驱动的基础模型,在自然图像分割方面表现出了卓越的性能。然而,其在视频伪装物体检测(VCOD)中的应用遇到了挑战,主要源于被忽视的时空关联以及用户为肉眼难以辨别的伪装物体提供的提示的不可靠性。为了解决上述问题,我们赋予 SAM 敏锐的洞察力,并提出了时空提示 SAM(TSP-SAM),这是一种通过巧妙的提示学习方案为 VCOD 量身定制的新颖方法。首先,采用动作驱动的自我提示学习来捕获伪装的物体,从而绕过用户提供提示的需要。通过在连续视频帧中检测到的细微运动线索,捕获伪装物体的整体运动,以实现更精确的空间定位。随后,为了消除帧间不连续性导致的提示偏差,考虑视频序列内的远程一致性,以提高自我提示的鲁棒性。它还被注入到SAM的编码器中以增强表征能力。两个基准的大量实验结果表明,所提出的 TSP-SAM 比最先进的方法取得了显着的改进。随着 mIoU 指标增加 7.8% 和 9.6%,TSP-SAM 成为 VCOD 领域的突破性一步。

ASAM: Boosting Segment Anything Model with Adversarial Tuning

 (ASAM:通过对抗性调整增强SAM)

文章链接        代码链接

摘要:在不断发展的计算机视觉领域,基础模型已成为关键工具,表现出对无数任务的卓越适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现出色。然而,SAM 与其同类产品一样,在特定的利基应用中遇到了限制,促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新颖方法。受到自然语言处理(NLP)中成功实施的启发,我们利用了自然对抗示例的潜力。通过利用稳定的扩散模型,我们扩充了 SA-1B 数据集的子集 (1%),生成更能代表自然变化而不是传统的难以察觉的扰动的对抗实例。我们的方法保持了对抗性示例的真实感,并确保与原始掩模注释保持一致,从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中展示了显着的改进,而无需额外的数据或架构修改。我们广泛评估的结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

 (通过强化学习将SAM与开放上下文对齐)

文章链接        代码链接(未公开)

摘要:在海量精选训练数据的支持下,Segment Anything Model (SAM) 在提示的指导下在开放世界场景中展示了其令人印象深刻的泛化能力。然而,普通 SAM 与类无关,并且严重依赖用户提供的提示来分割感兴趣的对象。使这种方法适应不同的任务对于准确的目标识别和避免次优的分割结果至关重要。在本文中,我们提出了一个名为 AlignSAM 的新颖框架,旨在通过强化学习自动提示将 SAM 与开放环境对齐。以代理为锚定,AlignSAM 使 SAM 模型能够在不同的下游任务中通用,同时保持其参数不变。具体来说,AlignSAM 启动一个提示代理,通过与基础模型交互来迭代地完善分割预测。它集成了强化学习策略网络,为基础模型提供信息提示。此外,还引入了语义重新校准模块来提供细粒度的提示标签,从而增强模型处理包含显式和隐式语义的任务的熟练程度。对现有基础模型中各种具有挑战性的分割任务进行的实验证明了所提出的 AlignSAM 相对于最先进方法的优越性。

Distilling Semantic Priors from SAM to Efficient Image Restoration Models

从 SAM 中提取语义先验,形成高效的图像恢复模型

文章链接        代码链接(未公开)

摘要:在图像恢复(IR)中,利用分割模型的语义先验一直是提高性能的常用方法。最近的分段任何模型(SAM)已经成为提取高级语义先验以增强 IR 任务的强大工具。然而,与现有的较小 IR 模型相比,SAM 的计算成本对于 IR 来说过高。结合 SAM 来提取语义先验会极大地降低模型推理效率。为了解决这个问题,我们提出了一个通用框架来提炼 SAM 的语义知识,以增强现有的 IR 模型,而不干扰其推理过程。具体来说,我们提出的框架由语义先验融合(SPF)方案和语义先验蒸馏(SPD)方案组成。 SPF融合了原始IR模型预测的恢复图像和SAM预测的语义掩模之间的两种信息,以得到精细的恢复图像。 SPD 利用自蒸馏方式提取融合的语义先验,以提高原始 IR 模型的性能。此外,我们为 SPD 设计了语义引导关系(SGR)模块,确保语义特征表示空间的一致性,以充分提取先验。我们展示了我们的框架在多个 IR 模型和任务中的有效性,包括去雨、去模糊和去噪。

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

SAM-6D:SAM满足零样本 6D 物体姿态估计

文章链接        代码链接

摘要:零样本 6D 物体姿态估计涉及在杂乱场景中检测新物体及其 6D 姿态,这对模型的通用性提出了重大挑战。幸运的是,最近的分段任意模型(SAM)展示了出色的零样本传输性能,为解决这一任务提供了一个有前途的解决方案。受此启发,我们引入了 SAM-6D,这是一种新颖的框架,旨在通过两个步骤实现该任务,包括实例分割和姿态估计。给定目标对象,SAM-6D 采用两个专用子网络,即实例分割模型 (ISM) 和姿势估计模型 (PEM),在杂乱的 RGB-D 图像上执行这些步骤。 ISM 以 SAM 作为高级起点,生成所有可能的对象建议,并通过在语义、外观和几何方面精心设计的对象匹配分数选择性地保留有效的建议。通过将姿态估计视为部分到部分的点匹配问题,PEM 执行两阶段点匹配过程,采用背景标记的新颖设计来构建密集的 3D-3D 对应关系,最终产生姿态估计。在没有花哨的情况下,SAM-6D 在 BOP 基准的七个核心数据集上的实例分割和新物体的姿态估计方面都优于现有方法。

UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model

UnSAMFlow:由SAM引导的无监督光流

文章链接        代码链接

摘要:由于缺乏对象级信息,传统的无监督光流方法很容易受到遮挡和运动边界的影响。因此,我们提出了 UnSAMFlow,一种无监督流网络,它还利用了最新基础模型 Segment Anything Model (SAM) 中的对象信息。我们首先包含一个针对 SAM 掩模定制的自监督语义增强模块。我们还分析了传统平滑度损失的不良梯度景观,并提出了一种基于单应性的新平滑度定义。还添加了一个简单而有效的掩模特征模块,以进一步聚合对象级别的特征。通过所有这些调整,我们的方法产生了清晰的光流估计,物体周围有清晰的边界,这在 KITTI 和 Sintel 数据集上都优于最先进的方法。我们的方法还可以很好地跨领域推广并且运行非常高效。

Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM

神奇的动物以及在哪里可以找到它们:使用双 SAM 分割任何海洋动物

文章链接        代码链接

摘要:作为水下智能的重要支柱,海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以前的方法在提取远程上下文特征方面并不擅长,并且忽略了像素之间的连接性。最近,Segment Anything Model (SAM) 为一般分割任务提供了一个通用框架。不幸的是,在使用自然图像进行训练时,SAM 无法从海洋图像中获得先验知识。另外,SAM的单一位置提示对于事前引导来说是非常不足的。为了解决这些问题,我们提出了一种新颖的学习框架,名为 Dual-SAM for high-performance MAS。为此,我们首先引入具有 SAM 范式的双结构来增强海洋图像的特征学习。然后,我们提出了一种多级耦合提示(MCP)策略来指导全面的水下先验信息,并通过适配器增强 SAM 编码器的多级特征。随后,我们设计了一个扩张融合注意力模块 (DFAM),以逐步集成来自 SAM 编码器的多级特征。通过双解码器,它生成伪标签并实现和谐特征表示的相互监督。最后,我们提出了一种十字交叉连接预测(C3P)范例来捕获像素之间的互连性,而不是直接预测海洋动物的面具。与以前的技术相比,它显示出显着的改进。大量实验表明,我们提出的方法在五个广泛使用的 MAS 数据集上实现了最先进的性能。


BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model

BA-SAM:用于SAM的可扩展偏置模式注意模型

文章链接        代码链接

摘要:在本文中,我们解决了分段任意模型 (SAM) 的图像分辨率变化的挑战。 SAM 以其零样本泛化性而闻名,但在面对不同图像大小的数据集时会表现出性能下降。以前的方法倾向于将图像大小调整为固定大小或采用结构修改,这阻碍了 SAM 丰富的先验知识的保存。此外,这种特定于任务的调整需要对模型进行彻底的重新训练,这成本昂贵,并且对于下游任务中的部署来说是不可接受的。在本文中,我们将这个问题重新表述为长度外推问题,其中令牌序列长度变化,同时为不同尺寸的图像保持一致的补丁尺寸。为此,我们提出可扩展偏置模式注意掩模(BA-SAM)来增强 SAM 对不同图像分辨率的适应性,同时消除结构修改的需要。首先,我们引入了一个新的缩放因子,以确保当令牌序列长度发生变化时,注意力层的点积值的大小保持一致。其次,我们提出了一种偏差模式注意掩模,允许每个标记优先考虑相邻信息,从而减轻未经训练的远距离信息的影响。我们的 BA-SAM 在两种情况下展示了功效:零样本和微调。对各种数据集(包括 DIS5K、DUTS、ISIC、COD10K 和 COCO)的广泛评估表明,其能够显着减轻零样本设置中的性能下降,并通过最少的微调实现最先进的性能。此外,我们提出了一个通用模型和基准,同时展示了 BA-SAM 在所有四个数据集上的通用性。


VRP-SAM: SAM with Visual Reference Prompt

VRP-SAM:带有视觉参考提示的 SAM

文章链接        代码链接

摘要:在本文中,我们提出了一种新颖的视觉参考提示(VRP)编码器,使分段任何模型(SAM)能够利用带注释的参考图像作为分割提示,从而创建 VRP-SAM 模型。本质上,VRP-SAM可以利用带注释的参考图像来理解特定对象并对目标图像中的特定对象进行分割。值得注意的是,VRP编码器可以支持参考图像的多种注释格式,包括point、box、scribble和mask。 VRP-SAM在SAM框架内实现了突破,扩展了其多功能性和适用性,同时保留了SAM的固有优势,从而增强了用户友好性。为了增强VRP-SAM的泛化能力,VRP编码器采用元学习策略。为了验证 VRP-SAM 的有效性,我们对 Pascal 和 COCO 数据集进行了广泛的实证研究。值得注意的是,VRP-SAM 在视觉参考分割方面以最少的可学习参数实现了最先进的性能。此外,VRP-SAM 表现出强大的泛化能力,使其能够对不可见的对象进行分割并实现跨域分割。


Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

通过分层解码释放 SAM 在医学适应方面的潜力

文章链接         代码链接

摘要:分段任意模型 (SAM) 因其多功能分段功能和直观的基于提示的界面而受到广泛关注。然而,它在医学成像中的应用提出了挑战,要么需要大量的培训成本和广泛的医学数据集来进行完整的模型微调,要么需要高质量的提示以获得最佳性能。本文介绍了 H-SAM:一种 SAM 的无提示改编,旨在通过两阶段分层解码过程对医学图像进行高效微调。在初始阶段,H-SAM采用SAM的原始解码器来生成先验概率掩模,指导第二阶段更复杂的解码过程。具体来说,我们提出了两个关键设计:1)类平衡、掩模引导的自注意力机制,解决标签分布不平衡的问题,增强图像嵌入; 2)可学习的掩模交叉注意机制,基于先前的掩模在空间上调制不同图像区域之间的相互作用。此外,H-SAM 中包含的分层像素解码器增强了其捕捉细粒度和局部细节的能力。这种方法使 SAM 能够有效地整合学习到的医学先验知识,从而有助于增强对有限样本的医学图像分割的适应能力。与仅使用 10% 的 2D 切片进行多器官分割的现有无提示 SAM 变体相比,我们的 H-SAM 的平均 Dice 提高了 4.78%。值得注意的是,在不使用任何未标记数据的情况下,H-SAM 甚至优于依赖于各种医疗数据集中广泛的未标记训练数据的最先进的半监督模型。


FocSAM: Delving Deeply into Focused Objects in Segmenting Anything

FocSAM:深入研究分割任何事物的焦点对象

文章链接        代码链接

摘要:分段任意模型 (SAM) 标志着分段模型的一个显着里程碑,其强大的零样本功能和处理不同提示的能力凸显了这一点。 SAM 遵循一条管道,通过大型编码器将交互式分割分离为图像预处理,并通过轻量级解码器将交互式推理分离,从而确保高效的实时性能。然而,SAM 在此管道上挑战样本时面临稳定性问题。这些问题的产生主要有两个因素。首先,图像预处理使 SAM 无法在交互过程中动态使用图像级放大策略重新聚焦于目标对象。其次,轻量级解码器难以将交互信息与图像嵌入充分集成。为了解决这两个限制,我们建议 FocSAM 在两个关键方面重新设计管道。首先,我们提出动态窗口多头自注意力(Dwin-MSA)来动态地将 SAM 的图像嵌入重新聚焦在目标对象上。 Dwin-MSA 将注意力计算集中在目标对象周围,以最小的计算开销增强与对象相关的嵌入。其次,我们提出逐像素动态 ReLU (P-DyReLU),以实现对几次初始点击的交互信息的充分集成,这对整体分割结果有重大影响。实验上,FocSAM 增强了 SAM 的交互式分割性能,以在分割质量方面与现有最先进的方法相匹配,仅需要该方法在 CPU 上的推理时间的约 5.6%。


MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation

(MemSAM:驯服用于超声心动图视频分割的SAM)

文章链接        代码链接

摘要: 我们提出了一种新颖的超声心动图视频分割模型,将 SAM 适应于医疗视频,以解决超声视频分割中长期存在的一些难题,包括:(1)大量斑点噪声和伪影;(2)极其模糊的边界;(3)目标对象在各帧之间的巨大变化。我们模型的核心技术是一种时间感知和抗噪提示方案。具体来说,我们采用一个同时包含空间和时间信息的时空存储器来提示当前帧的分割,因此我们将所提出的模型称为 MemSAM。在提示过程中,带有时间线索的存储器会按顺序逐帧提示视频分割。同时,由于内存提示传播的是高级特征,因此避免了掩码传播造成的误识别问题,并提高了表示一致性。为了应对斑点噪声的挑战,我们进一步提出了一种记忆强化机制,利用预测的掩码在存储前提高记忆质量。我们在两个公共数据集上广泛评估了我们的方法,并展示了与现有模型相比最先进的性能。特别是,我们的模型在注释有限的情况下,取得了与完全监督方法相当的性能。


PTQ4SAM: Post-Training Quantization for Segment Anything

PTQ4SAM:SAM的训练后量化

文章链接        代码链接

摘要:分段任意模型 (SAM) 在许多计算机视觉任务中取得了令人印象深刻的性能。然而,作为一个大规模模型,巨大的内存和计算成本阻碍了其实际部署。在本文中,我们提出了一种用于分段任意模型的训练后量化(PTQ)框架,即 PTQ4SAM。首先,我们研究了 SAM 量化的固有瓶颈,该瓶颈归因于后键线性激活中的双峰分布。我们从每个张量和每个通道的角度分析其特征,并提出一种双峰积分策略,该策略利用数学上等效的符号运算将双峰分布转换为相对容易离线量化的正态分布。其次,SAM 包含不同的注意力机制(即自注意力和双向交叉注意力),导致 Softmax 后分布的显着变化。因此,我们通过搜索最佳二次方基数为 Softmax 引入了自适应粒度量化,这是硬件友好的。各种视觉任务(实例分割、语义分割和对象检测)、数据集和模型变体的广泛实验结果显示了 PTQ4SAM 的优越性。例如,当将 SAM-L 量化为 6 位时,我们实现了实例分割的无损精度,理论精度下降了约 0.5\%,理论精度为 3.9 x加速度。


Semantic-aware SAM for Point-Prompted Instance Segmentation

(用于点提示实例分割的语义感知 SAM)

文章链接        代码链接

摘要:视觉任务中的单点注释以最小化标记成本为目标,在研究中变得越来越重要。最近,Segment Anything (SAM) 等视觉基础模型因其强大的零样本功能和出色的注释性能而获得了广泛的应用。然而,SAM 的类不可知输出和局部分割的高置信度引入了“语义模糊性”,对精确的特定类别分割提出了挑战。在本文中,我们介绍了一种使用 SAM 的经济高效的特定类别细分器。为了应对这一挑战,我们设计了一种语义感知实例分割网络 (SAPNet),它将具有匹配功能的多实例学习 (MIL) 和具有点提示的 SAM 集成在一起。 SAPNet 战略性地选择 SAM 生成的最具代表性的掩模提案来监督分割,特别关注对象类别信息。此外,我们引入了点距离指导和框挖掘策略来减轻固有的挑战:弱监督分割中的“群体”和“局部”问题。这些策略有助于进一步提高整体分割性能。 Pascal VOC 和 COCO 上的实验结果证明了我们提出的 SAPNet 的良好性能,强调了其语义匹配功能及其推进点提示实例分割的潜力。


EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

EfficientSAM:利用蒙版图像预训练来有效分割任何内容

文章链接        代码链接

摘要:分段任意模型 (SAM) 已成为众多视觉应用的强大工具。驱动零样本传输和高多功能性的令人印象深刻的性能的一个关键组件是在广泛的高质量 SA-1B 数据集上训练的超大型 Transformer 模型。 SAM 模型虽然有益,但巨大的计算成本限制了其在更广泛的现实世界中的应用。为了解决这一限制,我们提出了 EfficientSAM,这是一种轻量级 SAM 模型,它表现出良好的性能,同时大大降低了复杂性。我们的想法基于利用蒙版图像预训练 SAMI,它学习从 SAM 图像编码器重建特征,以实现有效的视觉表示学习。此外,我们采用 SAMI 预训练的轻量级图像编码器和掩模解码器来构建 EfficientSAM,并微调 SA-1B 上的模型以分割任何任务。我们对图像分类、对象检测、实例分割和语义对象检测等多个视觉任务进行评估,发现我们提出的预训练方法 SAMI 始终优于其他掩模图像预训练方法。在分割任何任务(例如零样本实例分割)时,我们的 EfficientSAM 与 SAMI 预训练的轻量级图像编码器相比其他快速 SAM 模型表现良好,具有显着的增益(例如,COCO/LVIS 上约 4 AP)。


RobustSAM: Segment Anything Robustly on Degraded Images

RobustSAM:在退化图像上稳健地分割任何内容

文章链接        代码链接

摘要:分段任意模型 (SAM) 已成为图像分割领域的一种变革性方法,因其强大的零样本分割功能和灵活的提示系统而备受赞誉。尽管如此,其性能仍受到图像质量下降的挑战。为了解决这一限制,我们提出了鲁棒分段任意模型 (RobustSAM),它增强了 SAM 在低质量图像上的性能,同时保留了其及时性和零样本泛化能力。我们的方法利用预训练的 SAM 模型,仅具有边际参数增量和计算要求。 RobustSAM 的附加参数可以在 8 个 GPU 上在 30 小时内优化,这证明了其对于典型研究实验室的可行性和实用性。我们还介绍了 Robust-Seg 数据集,这是一个具有不同退化的 688K 图像掩模对的集合,旨在最佳地训练和评估我们的模型。跨各种分割任务和数据集的大量实验证实了 RobustSAM 的卓越性能,尤其是在零样本条件下,强调了其在现实世界中广泛应用的潜力。此外,我们的方法已被证明可以有效提高基于 SAM 的下游任务(例如单图像去雾和去模糊)的性能。


From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation 

(从 SAM 到 CAM: 探索用于弱监督语义分割的SAM模型)

文章链接        代码链接

摘要:弱监督语义分割(WSSS)旨在利用图像级类标签学习分割概念。通过在推理阶段使用分割基础模型 Segment Anything Model (SAM),最近的 WSSS 作品显示出了良好的效果。然而,我们发现这些方法仍然容易受到作为初始种子的类激活图(CAM)噪声的影响。作为一种补救措施,本文介绍了一种新颖的 WSSS 框架--从 SAM 到 CAMs(S2C),该框架在训练过程中将 SAM 的知识直接传输给分类器,从而提高 CAM 本身的质量。S2C 由 SAM 片段对比(SSC)和基于 CAM 的提示模块(CPM)组成,分别在特征和对数层面利用 SAM。SSC 利用 SAM 的自动分割结果执行基于原型的对比。它限制每个特征接近于其分段的原型,而远离其他特征的原型。同时,CPM 从每个类别的 CAM 中提取提示,并通过 SAM 利用这些提示生成特定类别的分割掩码。掩码根据置信度分数汇总成统一的自我监督,其设计考虑了 SAM 和 CAM 的可靠性。在所有基准测试中,S2C 的性能都达到了最先进的水平,远远超过了现有的研究。

 


ECCV 2024 

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

(IRSAM:用于红外小目标探测的SAM模型)

文章链接        代码链接(未公开)

摘要:最近的分段任意模型(SAM)是自然图像分割领域的重大进步,表现出适用于各种下游图像分割任务的强大的零样本性能。然而,由于自然图像和红外图像之间存在显着的域差距,直接利用预训练的 SAM 进行红外小目标检测 (IRSTD) 任务无法获得令人满意的性能。与可见光相机不同,热成像仪通过捕获红外辐射来显示物体的温度分布。小目标通常会在物体边界处表现出微妙的温度转变。为了解决这个问题,我们提出了 IRSTD 的 IRSAM 模型,它改进了 SAM 的编码器-解码器架构,以学习更好的红外小物体的特征表示。具体来说,我们设计了一个基于 Perona-Malik 扩散 (PMD) 的模块,并将其合并到 SAM 编码器的多个级别中,以帮助其捕获基本的结构特征,同时抑制噪声。此外,我们设计了粒度感知解码器(GAD)来融合编码器的多粒度特征,以捕获长距离建模中可能丢失的结构信息。对公共数据集(包括 NUAA-SIRST、NUDT-SIRST 和 IRSTD-1K)的大量实验验证了 IRSAM 的设计选择及其相对于代表性最先进方法的显着优势。

Semantic-SAM: Segment and Recognize Anything at Any Granularity 

(语义-SAM:以任何粒度分割和识别任何事物

文章链接        代码链接

摘要:在本文中,我们介绍了 Semantic-SAM,这是一种通用图像分割模型,能够以任何所需的粒度分割和识别任何内容。我们的模型提供了两个关键优势:语义感知和粒度丰富。为了实现语义感知,我们跨三个粒度整合多个数据集,并引入对象和零件的解耦分类。这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力,我们在训练期间提出了一种多选择学习方案,使每次点击都能生成与多个真实掩模相对应的多个级别的掩模。值得注意的是,这项工作代表了在 SA-1B、通用和部分分割数据集上联合训练模型的首次尝试。实验结果和可视化表明我们的模型成功实现了语义感知和粒度丰富。此外,将 SA-1B 训练与其他分割任务(例如全景和零件分割)相结合,可以提高性能。我们将提供代码和演示以供进一步探索和评估。

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

开放词汇 SAM:交互式分割和识别 2 万个类别

文章链接        代码链接

摘要:CLIP 和分段任意模型 (SAM) 是出色的视觉基础模型 (VFM)。 SAM 擅长跨不同领域的分割任务,而 CLIP 以其零样本识别能力而闻名。本文提出了将这两种模型集成到统一框架中的深入探索。具体来说,我们介绍了 Open-Vocabulary SAM,这是一种受 SAM 启发的模型,专为同步交互式分割和识别而设计,利用两个独特的知识转移模块:SAM2CLIP 和 CLIP2SAM。前者通过蒸馏和可学习的变压器适配器将 SAM 的知识融入到 CLIP 中,而后者则将 CLIP 知识转移到 SAM 中,增强其识别能力。对各种数据集和检测器的大量实验表明,开放词汇 SAM 在分割和识别任务中的有效性,显着优于简单组合 SAM 和 CLIP 的简单基线。此外,在图像分类数据训练的帮助下,我们的方法可以分割和识别大约 22,000 个类别。

  • 14
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值