GroupPrompter: A Prompting Method for Semantic Segmentation Based on SAM GroupPrompter:基于SAM语义分割提示方法

本文在总结现有几种基于SAM的语义分词方法的基础上,提出了一种使SAM能够使用自动学习的提示执行语义分割的方法,将潜在语义特征与分组提示学习相结合,称为GroupPrompter。

SAM在语义分割任务上的扩展

近年来在SAM语义分割方面的工作主要综述为三种方法,分别是:以均匀采样点为提示的掩码解码器分类(SAM- dec)、适应新的特征编码器和类令牌(SAM- adp)和统一其他语义分割模型(SAM- seg),分别如图(a)、(b)、(c)所示。

a SAM-DEC。首先SAM可以在网格提示点下输出掩码,再训练一个分类器为每个掩码分配标签:

b SAM-ADP。这种方法更像是“微调”,它涉及可训练的类标记和附加的特征编码器来适应特殊的领域数据。类令牌充当目标类别的线索,特征编码器结合特定于领域的知识来增强性能。该过程描述为:

c SAM-SEG。现有的语义分割模型提供的掩码精度较低,但提供了准确的类别分类,并利用SAM来提高现有模型的性能。通常,该方法包括掩码分支和语义分支,以及一个投票模块,决定每个掩码的类别:

介绍基于采样的提示器(详情请看SEEM

对于所有的分割,SAM按照提示对图像上的点进行均匀采样。同样,SEEM提出了VisualSampler,将各种非文本查询转换为位于同一视觉嵌入空间的视觉提示,描述为:

Eprompt = VisualSampler(p, E)

其中E为从目标图像中提取的特征映射,p为采样位置。提示符是通过对图像特征中相应区域的池化得到的。VisualSampler避免了从低维点坐标到高维提示空间的映射过程,极大地方便了模型优化。

提出的基于聚类和基于分组的GroupPrompter

聚类

该方法结合了采样和over-segmentation思想,通过简化的聚类算法对采样后的特征进行聚类,分层提取深度特征,称为ClusterPrompter。特别地,中间特征被过度分割,然后逐步聚类。聚类过程包括特征聚合和特征调度

特征聚合是基于与中心点的相似度动态聚合聚类中的所有点。假设一个聚类包含m个点,m个点与中心的余弦相似度s∈R m,聚合特征g∈R d:

其中d是特征维数,α和β是可学习的标量,用于缩放和移动相似度,sigmoid用于将相似度重新缩放到(0,1)。vc是聚类中心建议,Pi表示第i点特征。为了保证数值的稳定性,引入了值中心vc。

特征调度基于相似性自适应地将聚合后的特征g分配到聚类的每个点上,实现聚类特征的共享。每个点更新:

整个过程如图3 (a)所示,可表示为:

式中,Ep∈R Np×c为点p的嵌入特征,Tc∈R C×c为聚类c的表示,其中Np为提示的个数,c为图像中包含的类别的平均个数。其中Conv(·)表示匹配解码器维度的1 × 1卷积,T表示掩码解码器的提示嵌入。MLP输出相应的类别。接下来[5],使用正弦函数将生成的提示嵌入与SAM的提示编码器的嵌入对齐。为了降低计算量,采用降采样的方法减少点的个数。

分组

基于聚类的提示器是通过聚类的方式产生提示,这种方法没有充分挖掘中心之间的关系,导致全局信息缺失。

我们进一步提出了一种基于分组的提示器,利用注意机制来增强全局上下文信息。如图3(b)所示,主要由一个轻量级Transformer编码器组成,我们将其层划分为分组阶段的层次结构。每个阶段连接一组可学习的组标记gi和段si作为输入,并在其末尾合并一个分组块,将较小的组合并为较大的组,称为GroupPrompter。将来自SAM编码器的图像特征作为起始段,对于第l分组阶段,我们首先将s l i和g l i连接起来,将它们放在一起,然后将它们作为输入带进Transformer层

然后我们通过分组块将更新的段令牌s l l i分组为新的段令牌s l+1 i:

GroupingBlock将学习到的组令牌和图像段令牌作为输入。它根据嵌入空间的相似性,将所有分配给相同组标记的段标记合并到一个新的图像段中。

特别地,通过Gumbel-Softmax[37]运算,计算组令牌g1 i与段令牌g1 i之间的相似度,如图3(b)所示。该过程可描述为(11):

其中Es∈R Ns×c为段嵌入,Tg∈R C×c为组令牌,其他符号与基于聚类的方法一致。

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值