Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation学习笔记

Abstract

本文研究了弱开放词汇语义分割问题(weakly open-vocabulary semantic segmentation)(WOVSS)。

该问题学习使用图像-文本对(image-text pairs)来分割任意类别(arbitrary classes)的对象。

现有的工作转向通过引入显式分组识别来增强普通视觉transformer,即使用几个组tokens/centroids来聚类图像标记并执行组-文本对齐(group-text alignment)

然而,这些方法在group tokens的使用方面存在粒度不一致(granularity inconsistency)的问题,group tokens在训练和推理阶段分别以全对一和一对一的方式进行对齐。

我们认为,这种差异源于对每个group token缺乏详细的监督(elaborate supervision)

为了弥补这种粒度差距,本文从原型知识中探索了对group token的显式监督(explicit supervision)

为此,本文提出了不可学习原型正则化(non-learnable prototype regularization, NPR),即从源特征中估计不可学习原型作为监督,并实现group tokens的对比匹配。这种正则化使得group tokens以更少的冗余分割对象,并捕获更全面的语义区域,从而提高了紧凑性丰富性

在此基础上,提出了基于多模态正则化的原型制导分割网络(PGSeg),利用不同层次的图像和文本原型源,逐步增强了不同原型模式的分割能力。

实验结果表明,本文提出的方法在多个基准数据集上达到了最先进的性能。源代码https://github.com/Ferenas/PGSeg。

Introduction

开放词汇语义分割(OVSS)

近年来,视觉语言预训练(VLP)方法取得了显著的成功,为语义分割这一重要的计算机视觉任务领域注入了活力。这一进步导致了一个有趣的任务的出现,即开放词汇语义分割(OVSS),其目的是分割属于预定义类别之外的任意类别(arbitrary classes)的对象像素。为了应对这一挑战,大多数作品已经转向大量配有精确注释掩模的图像-文本对

弱开放词汇语义分割(WOVSS)

为了将OVSS从详尽的像素级基础真理中解放出来,我们在本文中挖掘了弱开放词汇语义分割(WOVSS),这是一个更艰巨的设置,仅使用图像-文本对来实现OVSS

图1:说明我们的动机。该方法利用原型知识对group tokens进行显式监督,提高了分割结果的丰富性(richness)紧凑性(compactness)。前者改进了group tokens的特征表示,扩大了语义区域,后者减少了聚类冗余和噪声。

存在的问题

为了从大量的图像-文本数据中学习,视觉transformer(vision transformer, ViT)[14]在从文本中获取强大的视觉表示方面取得了令人印象深刻的进步。然而,普通的ViT缺乏显式的分组组件,使得它无法仅通过文本监督实现可比较的细粒度分割

为了使ViT具有潜在的分割能力,大多数WOVSS方法提出将patch级视觉特征(patch level visual features)聚类为几个可学习的group tokens/centroids,并对组-文本对齐(group-text alignment)进行处理,生成相应的类别。尽管这些方法是有效的,但它们不可避免地会受到group tokens粒度不一致granularity inconsistency的困扰。在训练阶段,对这些可学习的group tokens进行平均,以促进all-to-one的group-text alignment,而在zero shot推理期间采用一对一对齐策略(请参阅图2了解更多细节)。这种不一致是由于WOVSS固有的弱监督造成的,否则,它们可以被正则化,例如像素级的ground truth,以像普通的OVSS方法一样执行有希望的分割结果。

group token的显式监督来弥合粒度差距

为了打破这种非正则化的学习模式,本文旨在通过探索对group token的显式监督来弥合粒度差距,弥补WOVSS中有缺陷的监督。

什么构成了一个好的聚类(cluster)?

在深入研究group tokens的正确指导之前,让我们回顾一下一个有趣的问题:什么构成了一个好的聚类(cluster)?这个问题促使我们提出可靠群质心(a reliable group centroid)应具备的两个性质。

1)紧凑性Compactness确保聚类质心及其聚类项紧密地位于特征空间中,形成噪声和冗余最小的紧凑聚类[31];24;30)。

2)丰富度Richness是指质心能够捕捉到多种准确的模式,从而增强零次泛化能力[3];4;56)。

这两个性质促使我们从期望最大化(EM)估计数据密度(an expectation-maximization (EM) estimated data density)通过开发原型知识(prototypical knowledge)来寻找监督。

为此,我们提出了不可学习的原型正则化(non - learnable prototypical regularization, NPR),该正则化采用软聚类模型之一的高斯混合模型(Gaussian mixture models, GMM)[42],从每个group token的源特征生成监督。具体来说,我们将从源特征中学习到的高斯分布视为原型,然后将其用于以对比的方式与group tokens对齐。值得注意的是,每个不可学习的原型(不涉及梯度反向传播)都能够正则化相应的group token,使其能够紧凑(compactly)而丰富(richly)地分割。如图1所示,group tokens可以从这种原型监督中受益,以更少的冗余和更准确的语义模式对对象进行分割,有效地缓解了分割不足和过度的问题。

贡献

为了实例化NPR中的原型模式,本文介绍了一种利用多模态信息作为源特征的新研究。具有详细纹理信息的底层图像特征可以作为改进分割结果的直观选择。除了这种简单的单模态,我们进一步从文本中挖掘原型,用文本信息正则化group tokens。因此,我们提出了两种策略,即图像级NPR (I-NPR)文本级NPR (T-NPR),为group tokens提供多模态正则化。在此基础上,我们提出了原型制导分割网络(PGSeg),这是一种分层分割模型,将I-NPR和T-NPR分别纳入不同层次的group tokens中,逐步提高group tokens的分割能力。总的来说,我们做出了以下贡献:

•我们提出探索和利用原型知识的NPR,作为分割对象时group tokens的有效监督。这种显式正则化被鼓励为group tokens带来紧凑和丰富的特征表示。

•我们提出了一种简单而有效的分割架构PGSeg,它从图像和文本中提取原型知识,在不同层次上正则化组标记,逐步指导组标记以明确的方式进行分割。

•几个基准测试的广泛结果证明了我们方法的优越性和有效性。特别是,我们的方法在PASCAL VOC12[16]和COCO[32]上分别达到53.2% mIoU和28.7% mIoU,产生了新的最先进的性能。值得强调的是,我们的PGSeg模型仅在CC12M数据集[7]上训练,在PASCAL VOC12和COCO上的mIoU分别高达14.5%和5.2%,超过了一些利用大型基础模型(如CLIP[39]和BERT[13])的最先进方法。

Related Work

弱开放词汇语义分割Weakly Open-Vocabulary Semantic Segmentation

弱开放词汇语义分割Weakly Open-Vocabulary Semantic Segmentation。现有的大多数研究WOVSS的工作可以根据是否使用CLIP[39]或Diffusion Models[43]作为基本模型分为两类。第一类侧重于从CLIP或Stable Diffusion Models中提取粗定位特征,然后对其进行细化以获得细粒度的分割结果[55];6;36)。第二类方法不同于那些专注于CLIP的方法,其中心是通过结合分组识别来增强普通ViT,从而产生基本分割模型[33;50;41;51]。在这些方法中,引入了几个可学习的group tokens/centroids来从图像特征中提取视觉概念。[50]提出了GroupViT,将这些token分配给输入的patch token,从而在训练过程中实现可学习的聚类过程。[35]也提出了一种基于分组的方法,并引入了重建损失和基于超像素的正则化损失来改善内部聚类结果。我们的工作与第二类方法一致。请注意,WOVSS的设置与弱监督语义分割(WSSS)非常相似,后者通过简单的图像级标签获得分割模型。大多数解决WSSS的工作都是利用图像信息的底层来迭代地改进分割掩码[44];1;[54],需要在目标数据集上进行大量额外的训练或推理阶段。因此,本文探索了一种端到端机制,有效地在分割掩码上合并低级信息。

深度表示学习的原型Prototypes for Deep Representation Learning

深度表示学习的原型Prototypes for Deep Representation Learning原型Prototypes通常是指来自常规聚类方法的质心centroids[15]。基于期望最大化(EM)算法,通过混合先验分布估计数据特征来学习原型。因此,原型通常被认为是“不可学习的”,因为它们偏离了深度神经网络中通常的基于梯度的学习[31;56)。在对比学习(CL)中,原型模式的包含被广泛地用于增强特征表征学习[3];4;5;31日;[58],其目的是匹配一对对齐样本的特征嵌入。这些方法的成功突出了原型为特性对齐带来的两个重要好处。第一个是紧致度[31];30;[24],他们发现原型可以将特征重新表述为更紧凑的表示,减少了特征对齐中的冗余和噪声。这将导致更可靠的特征表示。另一个好处是通过捕获更多的学习模式来增强特征表示的丰富性。CL经常遭受维度崩溃,其中嵌入向量占据比其原始维度更低的子空间,导致特征表示的多样性有限。为了解决这个问题,一系列工作利用原型作为特征对齐的约束,这被验证有效地丰富了特征表示[3;4;5;53个;57)。这项工作探索了原型知识的使用,期望为分割集群提供上述优势。

WOVSS中语义分组机制的再思考(Rethinking the Semantic Grouping Mechanism in WOVSS)

为了有效应对WOVSS,近期的工作非常强调将显式分组识别纳入普通模型。为此,这些方法开发了基于ViT的语义分组机制(semantic grouping mechanism, SGM)[14]。

形式上,给定m个输入patch token S = [s1, s2,…,sm]∈R m×d和额外的q个learnable group token G =[g1, g2,…,gq]∈R q×d,其中d为数据的维数,q < m。SGM对S进行聚类并输出新的聚类token。图2清楚地展示了这种基于交叉注意的聚类过程。在这里,每个patch token由Straight-Through Gumbel-Softmax分配给相应的group token,使此过程端到端可训练。我们将这个patch-group分配公式化为A = Q(G)K(S)∈R q×m。通过将SGM插入到ViT中,可以赋予普通图像编码器潜在的分割能力。然而,可以观察到,这种机制在训练和推理阶段之间呈现出group token粒度不一致(如图2所示)。更具体地说,在训练阶段,所有group token被全局平均,以匹配最终组-文本对齐的相应文本嵌入,而在推理阶段,每个组标记需要与每个类嵌入进行单独的比较,以获得语义标签,然后使用语义标签根据patchgroup分配对相应的图像区域进行注释。

因此,在一对一的组-文本对齐中使用的group token没有得到明确的监督,因为它们在训练阶段受到全对一的基于文本的正则化。这种监督上的差异可能会导致OVSS和WOVSS之间的表现差距。在OVSS中,每个可学习的group token都可以作为一个查询嵌入,生成一个密集的嵌入用于对象掩码预测。这种密集嵌入可以通过从像素级地面真值注释中提取的模式进一步正则化[9;28日;59]。因此,这种粒度差异本质上源于WOVSS的弱监管。尽管存在挑战,但我们仍有动力探索针对每个group token的自定义正则化技术,旨在弥补像素级注释的缺失通过明确地解决粒度差距,我们的目标是提高WOVSS的分割性能。

Method

探索显性监督的原型知识(Exploring Prototypical Knowledge for Explicit Supervision)

为了找到明确可靠的监督,我们转向原型知识(prototypical knowledge),形成一个正则化的基础(regularized basis),可以为分group tokens在分割中带来一定的好处。高斯混合模型(GMM)[42]已经经过实验验证,可以形成一个可以减少特征冗余的基础[31;24)。受此启发,我们提出了不可学习的原型正则化(non- learable prototypical regularization, NPR),它使用GMM从原型源中提取原型(类似于数据挖掘的一种方式),然后以对比的方式将这些原型与群质心对齐

原型产生(Prototype Generation)

原型产生(Prototype Generation)。NPR的第一阶段是产生GMM的监督。GMM基于高斯分布的混合,其中混合的每个组成部分对应于数据中的一个聚类。形式上,给定原型源特征V = [v1,…], vm]∈R m×d,以及额外的q个随机初始化原型P = [p1,…], pq]∈R q×d,其中m、d为原型源的个数和维数。这样,V的分布可以表示为p(V) = q i=1 πiN (V |pi, Σi),其中πi∈r1, pi∈rd, Σi∈R d×d分别是第i个高斯分量的权值、均值和协方差。这里我们以手段作为原型。为了计算出(P, Σ, π),通过期望最大化(EM)算法最大化P (V)的对数似然,该算法通过期望(E)步骤和最大化(M)步骤之间的交替来优化模型,直到达到收敛。在E步中,第j个源特征出现的概率属于第i个高斯原型的vj可以表示为

式中Z: R 1×d→r1为核函数。为简单起见,我们设Σ为单位矩阵I,省略π。我们通过实验观察到Z的不同选择对最终结果的影响可以忽略不计,因此我们将高斯核exp−∥x−y∥2/2σ 2简化为指数内点expxy xy。根据估计的yij, M步中的原型P可以更新为

在交替重复E步和M步后,可以得到一堆表示原型信息的紧凑原型来监督群token。注意,我们可以通过V ' = Y∈P∈R m×d, Y = [yij]q×m重建原型源V。

原型的监督(Prototype Supervision)

原型的监督(Prototype Supervision)。第二阶段是用更新后的P正则化G。基于P和G的余弦相似度,我们首先进行匈牙利匹配[27],确保每个质心G都有对应的目标原型P。将匹配的原型记为P h = [P h 1,…], p h q]∈R q×d。然后,我们将匹配的(g, p h)对组合为正样本,并提出了原型指导(PG)损失LPG,以对比的方式正则化群质心:

其中τ = 0.1为温度超参数,S(a, b) = ab,∥a∥∥b∥计算两个向量之间的余弦相似度。基于PG损失,我们引入了一种简单的硬拒绝策略(HRS),该策略只考虑相似度超过固定阈值φ的正对。我们认为,一旦它们有显著差异,其中一组质心可能会被匹配的原型错误引导,这将在5.3节中讨论。此外,我们在这里假设原型和群质心的数量相同,我们也将在5.3节中展示它们的数量不同的情况(只考虑匹配的对来计算LPG)。

紧凑和丰富(Compactness & Richness)

紧凑和丰富(Compactness & Richness)。NPR的本质是用一个来自先验分布的规范化原型来调节每个群质心,如前所述,它产生了两个重要的好处2。第一个是紧凑性,它有助于通过减少噪声和冗余来改进聚类结果[31;24)。二是丰富性,通过应用归一化正则化来缓解维缩,使群标记具有丰富的特征表示[4];[18],尽可能捕获更准确的模式。总而言之,我们认为NPR可以通过这两个好处来增强group tokens的分割能力,这将在第5节中进行验证。

复杂性分析(Complexity Analysis)。EM算法是算法1中原型生成(Prototype Generation in algorithm 1)的关键部分,在迭代学习过程中,必须认真考虑EM算法的时间复杂度。然而,通过一个简化的实现,我们证明了在NPR中,单个样本的原型生成的时间复杂度为O(q × m × d)。出于实现目的,这种复杂性是可以接受的。实际的计算性能将在5.3节中演示。

开发WOVSS的原型制导(Exploiting Prototypical Guidance for WOVSS)

在本节中,我们详细介绍了我们提出的原型制导分割网络(prototype guidance segmentation network)(PGSeg),它将提出的NPR纳入SGM以解决WOVSS问题。

主要架构(Main Architecture)

主要架构(Main Architecture)。如图3所示,PGSeg的整体框架主要由一个文本编码器和一个图像编码器组成。使用基于transformer的文本编码器输出text embedding,记为Zt∈R n×c,其中n表示样本批处理大小,c表示特征维数。对于图像编码器,我们采用了基于vit的架构作为图像编码器。为了使图像编码器具有分割能力,我们提出了PG单元,它是一个基于SGM进行分组的即插即用模块。直观地说,在前向学习过程中,可以顺序连接多个PG单元以及多个变压器层,以执行分层分组。图像嵌入Zi∈R n×c作为图像编码器的输出,通过平均池化并映射最终PG单元的输出token生成。基于PGSeg的结构,我们假设如果插入L个PG单元,则图像编码器可以分成L个级别。在形式上,我们将第l层的输入token表示为Sl∈R n×ml×d,将ql个可学习的group tokens表示为Gl∈R n×ql×d,其中ml (ql)表示第1层输入patch (group)token的个数。同样地,将第l层的输出token表示为l∈R n×ql×d。直观地,我们认为Sl+1 = Sl, l∈{1,…, L}由于PG单元之间的顺序连接,即上一层的输出token作为下一层的输入patch token。

PG单元(PG Unit)

PG单元(PG Unit)。为了实例化NPR,我们提出了PG单元,它从图像-文本表示中挖掘出多模态原型源。在此基础上,我们提出了基于原型模式类型的两种基于NPR的策略,即图像级NPR (I-NPR)和文本级NPR (T-NPR)。

对于I-NPR,我们采用放置在transformer层前的输入token作为图像级原型模式,记为Vl∈R n×ml×d。基于额外的不可学习原型Pl∈R n×ql×d,我们遵循算法1,用Vl和Pl正则化Gl。此外,我们进一步通过Sl = Sl + V ' l对输入token进行改造,其中V ' l∈R n×ml×d为重构的图像级源,作为SGM的输入token,增强模型学习的鲁棒性[10]。

对于T-NPR,我们转向文本嵌入Zt∈R n×c×1作为文本级原型模式,以改进组标记Gl在捕获语义信息方面的性能。具体来说,我们引入了额外的文本原型Tl∈R n×ql×1,并用Zt更新它们。随后,我们用更新的Tl正则化AVG(Gl),其中AVG: R n×ql×d→R n×ql×1沿着维度d平均Gl。本质上,t - npr将每个组令牌的分数与Z t中从维度d聚类的中心值对齐。

训练损失(training loss)

训练损失(training loss)。基于提出的PG单元I-NPR和T-NPR,总体训练损失为

其中LIT为[39]中的对称图像-文本对比损失,λ和β是平衡损失的超参数。这里我们经验地设置λ = 0.1, β = 0.01。

原型的动量更新(Momentum update of Prototype)

原型的动量更新(Momentum update of Prototype)。为保证鲁棒收敛,设置适当的P初始化是至关重要的[42]。为此,我们利用指数移动平均(EMA)策略在每个训练轮之后全局更新初始原型:P(新)= γP(旧)+(1−γ) i=1 Pi (T),其中Pi (T)表示在NPR中最后T-th迭代时更新的原型,P(新)/ P(旧)是下一个/当前训练轮的初始原型。根据经验,我们设置γ = 0.9。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值