SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation

现已总结SAM多方面相关的论文解读,具体请参考该专栏的置顶目录篇

一、总结

1. 简介

发表时间:2024年1月23日

论文:

[2401.13051] PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2401.13051代码:

GitHub - xzz2/pa-sam: PA-SAM: Prompt Adapter SAM for High-quality Image Segmentationicon-default.png?t=N7T8https://github.com/xzz2/pa-sam

2. 摘要

       SAM在许多场景下,特别是在现实世界中,在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器,开发了一个高质量分割网络PA-SAM,旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件,只需要对提示适配器进行微调,从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘,它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。
        我们的方法在高质量数据集HQSeg-44K上取得了领先的性能,与之前的技术相比,mIoU提高了1.7%,BmIoU提高了2.7%。提高了SAM的分割性能,产生高质量的掩码,在高质量、零射击分割和开集分割数据集上也显示了令人满意的结果。

3. 引言

        图像分割是一项突出的计算机视觉任务,具有广泛的应用,包括图像编辑医学成像自动驾驶等。通过提供更详细的蒙版,特别是高分辨率图像,高质量的分割超越了基本分割。它不仅可以在感知上实现更精确的定位和识别,而且有助于对图像分析的更深入的理解。此外,高质量的分割信息可以显著增强对细节敏感的任务,如超分辨率消光去雾等。
        SAM在分割任务中表现出了很强的能力,能够根据提示为任意图像生成多个准确合理的掩模。然而,实际应用已经揭示了SAM在高质量分割性能方面的局限性,特别是对网球拍和椅子等物体的粗糙掩膜边界,以及对风筝线和昆虫触角等细节的错误预测。SAM分割质量很大程度上取决于输入到掩码解码器的提示符是否能携带详细的信息,在缺乏详细指导的情况下,SAM在实现高质量分割方面表现不佳。
        为了解决上述问题,HQ-SAM引入了一个高质量的令牌来捕获图像中的更多细节(见下图(a)),仅通过添加少量参数就极大地提高了SAM的分割质量。然而,HQ-SAM中使用的内隐学习方法使得提高SAM的分割能力具有挑战性,因为它主要侧重于提取SAM的掩码解码器特征进行分割训练,这与SAM的整体框架是隔离的。一些基于提示查询的方法利用图像特征生成固定的稀疏提示(见下图(b)),可以有效获取目标物体的位置,但难以捕获目标物体的详细信息。此外,集成或增强方法重用原始输入稀疏提示,在具有挑战性的领域中收益有限。

E:图像编码器 D:掩码解码器 PE:提示编码器 F:特征融合块 PA:提示适配器

        因此,迫切需要开发一种能够直接向SAM提供详细信息并改进掩码解码器特性的网络。直观地说,实现这一目标最直接的方法是提供更详细的注释,例如附加点或更精确的蒙版。受这种启发,我们想知道该模型是否能够自主地提取并将细节传递给SAM,从而在无需额外用户输入的情况下显著提高SAM的分割质量。

4.贡献

(1)引入了提示适配器片段任何模型(PA-SAM),旨在调查图像中的不确定区域,并将低级细节信息纳入密集和稀疏提示中,以增强SAM对细节的学习能力(见上图(c))。为了捕获细节,我们提出了一个提示驱动的适配器来执行自适应细节增强和硬点挖掘。与传统的适配器不同,提示适配器不优化图像特征,而是优化提示特征以提取网络焦点区域的详细信息。
(2)我们将掩码的细化过程转化为对精炼令牌和不确定令牌的学习,使模型对具有挑战性区域的图像细节更加敏感。
(3)提出了一种基于Gumbel top-k运算的硬点挖掘方法。为模型提供直接的详细指导。

二、PA-SAM模型结构

1. SAM

        SAM由图像编码器、掩码编码器、提示编码器和掩码解码器组成。图像编码器将输入图像转换为64×64的编码特征;掩码编码器将掩码编码为密集提示;提示编码器将点或边界框编码为稀疏提示;掩码解码器通过多层注意力机制交互图像特征和提示特征,输出最终的分割图。尽管SAM在分割任务中表现出色,但其分割质量严重依赖于输入掩码解码器的提示是否能携带详细信息。

2. PA-SAM

        PA-SAM的总体架构如下图所示,以掩码解码器为中心,分为左输入(原始SAM解码器输入)、解码器内部和输出、右输入(提示适配器PA)三部分讲解,整体流程如下:

2.1 左输入

(1)输入图像进入图像编码器(Image Encoder),生成图像嵌入。
(2)输入掩码进入掩码编码器(Mask Encoder),编码为密集提示(dense prompts)。
(3)输入点或框进入提示编码器(Prompt Encoder),编码为稀疏提示(sparse prompts)。
(4)Image Position Embedding:图像位置嵌入,为图像中的每个像素分配一个唯一的位置标识,用于表示输入图像中不同位置的特征,有助于模型理解图像中的空间结构。
        将上述四种输入到掩码解码器中。

2.2 右输入

        为了捕获高质量的细节信息,我们的思路是将图像细节转化为多粒度提示特征,以提示驱动的方式对SAM进行微调,提出了一个可训练的提示驱动适配器(Prompt Adapter)。它将图像特征与密集提示(dense prompts)相结合,并将其与稀疏提示(sparse prompts)一起发送给掩码解码器。在掩码解码器中,所提出的提示适配器将图像特征和稀疏提示分别转换为密集和稀疏适配器提示跟随每个块的自关注。随后,以残差方式将输出提示特征重新集成到PA-SAM中,优化掩码解码器的特征表示。在该架构中,模型可同时利用详细和不太详细的信息,从而提高分割的质量。 

2.3 解码器内部和输出

(1)Decoder Embeddings:这部分是解码器的输入层,负责将编码器和提示适配器(Prompt Adapter)传递过来的信息转换成适合解码器处理的嵌入表示。这些嵌入表示包含了图像的特征和用户提供的提示信息,它们将作为解码器后续处理的基础。
(2)Self Attn.:自注意力机制,允许解码器在生成输出时考虑之前生成的标记。这种机制有助于模型捕捉序列数据中的依赖关系。
(3)Token to Image Attn.:标记到图像注意力,这个组件将解码器中的标记特征与原始图像特征进行关联。通过这种方式,模型能够在生成输出时利用原始图像的详细信息,提高分割掩码的准确性。
(4)MLP:多层感知机,在解码器中用于处理来自图像到标记注意力的输出,进一步提炼和转换特征表示。
(5)Image to Token Attn.:图像到标记注意力,这个组件负责将图像特征转换为标记,并通过注意力机制对这些标记进行加权。这个过程使得模型能够关注输入图像中的重要部分,并为后续的处理步骤提供重点信息。
(6)Last layer:这是解码器的输出层,负责生成最终的分割掩码。再将掩码传送到掩码预测模型(Mask Prediction Module)中,生成最终的损失,计算模型预测掩码与真实掩码之间的差异。

3. 提示适配器(PA)

        本文在SAM的掩码解码器中提出了一个可训练的提示驱动适配器,它通过自适应细节增强和硬点挖掘来改进网络对不确定区域的学习。该模块的目标是将图像的详细信息集成到网络中,以提高对细节的敏感度和分割质量。

3.1 自适应细节增强

        自适应细节增强的目的是捕获高质量的细节信息。提示适配器通过以下两个主要步骤实现细节增强:

(1)密集提示补偿(Dense Prompt Compensation)

        为了解决SAM在图像编码过程中由于下采样导致的细节信息损失问题,设计了一个简单的补偿模块。该模块编码原始图像及其梯度(例如使用Canny算子)作为引导信息,并通过一致性表示模块(CRM)保持输出特征与图像特征之间的一致性。

(2)稀疏提示优化(Sparse Prompt Optimization)

        进一步优化稀疏提示特征,使得详细信息能够流入稀疏提示,从而增强模型对高质量图像分割的指导能力。通过将原始稀疏提示转换为详细的稀疏提示,同时保留原始弱标签引导。
        此外,定义了不确定令牌(uncertain token)来识别挑战性区域,并定义了细化令牌(refined token)来分割这些区域。通过MLP将掩码令牌与相应的静态令牌连接起来,获得这三个不同的掩码。

3.2 硬点挖掘

        该方法使用稀疏提示直接指导细节特征。硬点挖掘利用M{c}M_{R}M_{U}构建采样挑战点的指导。例如,在正点采样中,首先构建初始采样指导,然后在训练阶段使用Gumbel top-k操作来确保采样点的多样性。通过这种方式,可以对PA密集提示进行点采样,得到新的正点。

三、实验

 1. 实验设置

        实现细节:使用Adam优化器,学习率为0.001,批大小为4。图像分辨率为1024 × 1024。利用ViT-L作为图像编码器的骨干,并利用BCE损失和Dice损失对M_{SAM}M_{PA}进行监督。
        数据集:HQSeg-44K数据集上对我们的方法进行了评估,其中包括4个高质量的分割数据集:DISThinObject-5KCOIFTHR-SOD。此外,我们在零射击设置下对COCO方法进行了评估。此外,使用GroundingDINO在SegInW基准(由25个公开的零射击野外分割数据集组成)上进行了实验。

2. 高质量分割

        如下表所示,在HQSeg-44K高质量分割数据集上,PA-SAM模型相比于HQ-SAM模型实现了显著的性能提升。这表明优化的细节在掩码解码器中使用中间特征表示比使用最终特征训练更有利于生成高质量的分割图。
        BOFT-SAM等微调方法通过优化掩膜解码器的特性或对整个掩膜解码器进行微调,但性能比PA-SAM低。这主要是因为PA-SAM可以对不确定区域进行细节学习和探索,而其他的微调方法基本上是学习一个通用的表示,无法为高质量的分割带来明显的好处。
        RSPrompter等基于提示查询的方法在高质量的分割数据集上表现一般,甚至不如HQ-SAM。这表明提示符的生成不仅依赖于原始图像信息,还依赖于与原始输入提示符的交互。PA-SAM利用详细的图像信息来优化提示适配器中原始提示的表示,使其在高质量分割方面表现出色。

高质量分割数据集HQSeg-44K (DIS, COIFT, HRSOD, ThinObject)上的结果。SAM *表示微调SAM的整个掩码解码器。最好和次好的结果分别用红色和蓝色突出显示。

        下图为HQ-SAM(上)与PA-SAM(下)的视觉对比。图(a)中,当背景中存在与目标物体非常相似的物体时,PA-SAM比HQSAM能更好地区分目标物体。图(b)中,HQ-SAM显示出破损掩码,这主要是由于稀疏提示较少或不准确造成的,而PA-SAM可以通过自适应细节增强和硬点挖掘有效避免掩模破碎的发生。图(c)中,PA-SAM不仅避免了红色油漆的干扰,而且更有效地分割了椅子底部的纹理。

3. 零射击和开集分割 

        下表和图显示了PA-SAM在COCO数据集上进行零射击分割的结果。我们使用与HQ-SAM相同的检测器(FocalNet-DINO)生成对象边界框,然后将其用作PA-SAM的稀疏提示。PA-SAM相较于HQ-SAM进一步提高了0.4% AP。目前,基于SAM的零射击分割方法仍然存在与监督分割方法相比,分割质量存在一定差距,这主要是由于检测器检测质量的瓶颈。检测错误很容易传播到分割器,导致分割质量下降。与HQ-SAM相比,PA-SAM通过硬点挖掘丰富了稀疏提示,对检测误差的抵抗能力更强,更有利于零射击分割。

        下图为PA-SAM与HQ-SAM以ViT-H作为主干在Seginw上的开集分割。PASAM的mAP值为50.2%,比HQ-SAM高0.6%。PA-SAM在大多数类别中都有所改进,但在电动剃须刀、蝴蝶松鼠和电线杆等少数类别中性能相对不令人满意。这主要是由于这些类别中存在与主体明显不同的部分。在这种情况下,PA-SAM可能会在没有任何先验知识的情况下将它们错误地分类为其他类别。

4. 烧蚀研究

        如上表所示,我们对提示适配器中的自适应细节增强和硬点挖掘进行了一系列烧蚀实验,并分析了提示适配器的嵌入方法。所有实验结果均在高质量的DIS数据集上获得。
        自适应细节增强:比较了不使用硬点挖掘的密集提示补偿和稀疏提示优化的结果。密集的方法可以产生类似于HQ-SAM的结果。当与稀疏方法结合使用时,它可以使mBIoU提高0.6%。
        硬点挖掘:采样点数N_{sample}设为4时性能最佳;增加N_{sample}会因引入噪声而降低性能。下图展示了提示适配器的中间输出,M_{PA}能捕获M_{C}未注意到的细节,尽管与真实标注有差距。
        提示适配器连接:我们比较了三种嵌入提示适配器的方法,发现并行方法产生了最好的结果,因为它最大限度地减少了对原始掩码解码器的干扰。

  • 10
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值