Fine-grained Background Representation forWeakly Supervised Semantic Segmentation

sanguine__

于 2024-10-10 17:34:26 发布

阅读量640

点赞数 6

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/sanguine__/article/details/142767300

版权

code

https://github.com/XuYin94/FBR

paper

https://arxiv.org/pdf/2406.15755v1

1 引言

总之，我们的主要贡献有三个方面:

•我们提出了一种简单的FBR方法来解决弱监督语义分割中同时发生和不完整的目标区域问题。

•我们提出了一个细粒度的背景原语，称为NROI，来有效地表示图像背景，并实现前背景对比学习，以增强类激活图区分同时发生的背景线索的能力。此外，我们还引入了一种主动方法来对有效的前景底片进行采样，并进行前景内对比学习来激活完整的目标区域。

•在弱监督语义和实例分割方面的广泛实验和评估表明，我们的FBR方法可以用于不同的应用程序，并且可推广到各种基线架构。特别是，我们的方法在Pascal Voc 2012和MS COCO 2014测试集上实现了最新的弱监督语义分割性能。

III 方法

在图像级WSSS中，我们给定一个训练集D，其中数据元组(x, Y)∈D，其中每个图像x与一个类标签Y = (y1, y2，…yc)相关联。;yc = 1表示在x中存在前景(FG) c类(1≤c≤C)，否则为0。而在语义分割任务中，我们的目标是学习一个判别模型(通过神经网络参数化)来近似条件分布p(y|x)，其中y∈R ^(C+1)×H×W (H ×W表示空间大小)是包含FG类和背景(BG)类的ground truth语义标签。

现有的WSSS解决方案[1]，[2]，[8]，[13]利用CAM (y∈R^ (C+1)×H×W)，通过学习一个可靠的语义特征f∈R ^L×H×W (L表示特征维数)和分类损失Lcls来近似p(y|x):

其中σ为softmax函数， $\hat{s}_{c}$ 为分类分数。我们将CAM定义为一个函数，它将每个像素i的特征fi与参数θ(分类器的权重)投影到语义标签空间 $\hat{y}_{i}$ ∈R ^C+1:

在CAM生成步骤中，我们认为整个BG区域被视为一个被忽略的虚拟类，导致fi容易受到BG语义的影响，特别是共同发生的语义，从而导致分类模糊。这一观察结果表明了面向bg建模的必要性。此外，通过信息BG表示，我们可以进一步解耦目标对象[6]，[26]与其附近BG之间的语义相关性，以更好地近似真实p(yi |xi)。

我们的工作是首次尝试通过细粒度背景（Background, BG）表示来解决上述CAMs的局限性。与现有方法[6]、[31]、[33]不同，这些方法要么使用像素特征，要么使用原型来给出一个抽象的背景表示，我们的关键创新在于明确地对图像背景进行建模，使用一种新颖的细粒度原语（primitive），并执行前景-背景（Foreground-Background, FB）对比，以消除背景混淆（第IV-B节）。此外，我们设计了一种主动的负样本采样方法，以实现有效的内部对比（Internal Foreground, IF），从而学习紧凑的前景特征，激活完整的对象掩码。我们通过优化这两种关系来增强CAMs，并获得了更可靠的种子。

B 方法

对比学习设置用于WSSS：首先，我们遵循[19]中的流程来生成种子H ∈ R^(H×W)，除了将全局平均池化（GAP）层替换为阈值平均池化（TAP）层[4]，它只对语义特征f中高于阈值的像素进行平均（在补充材料中介绍和消融）。此外，我们添加了一个非线性投影头[7]、[31]，φf g，将f编码成与H具有相同空间分辨率的D维表示，Zf g ∈ R^(D×H×W)（见图2）。FG（前景）原型分配：根据空间位置，我们将H的前景标签信息分配给Zf g中的像素。按照文献[10]和[15]中的设置，对于批量中的每个前景类别c，我们选择具有最高CAM分数的前N个像素，并计算其原型pc，作为像素级表示的加权平均。
式中， $\hat{y}_{c}$ ∈R^ H×W为类c的激活图，πc为 $\hat{y}_{c}$ 中前N个像素的空间坐标集. 查询计算:我们为批处理中出现的每个c建立查询集 $z_{c}^{q}$ 。我们没有查询所有FG像素，而是将CAM分数作为自适应确定 $z_{c}^{q}$ 的确定性度量，使对比损失集中在H中的不确定像素(低于阈值β，设为0.4)上: 基于原型的对比学习(Prototype-based Contrastive Learning, PCL):标准对比损失[7]，[27]是通过鼓励查询q∈ $z_{c}^{q}$ 与其正键相似，与负键z^n∈Z ^n不同来实现的。在本工作中，我们将估计的FG原型pc∈P作为正，并将对比损失Lpcl表示为: 其中P = $\left \{ p_{c} \right \}_{c=1}^{C}$ , Z ^q = $\left \{ Z_{c}^{q} \right \}_{c=1}^{C}$ 是原型和查询的集合，τ和'·'表示温度和点积。我们从BG和FG区域实例化Z^n，并按照Eq. 5中的函数形式分别优化FB和IF对比关系;损失函数如Eq. 7和Eq. 9所示。
前背景(FB)对比:在第III-A节中，我们得出条件BG分布p( $\hat{y}_{c+1}$ |x)不能被Lcls优化，因此f具有较弱的BG描述能力。此外，与FG图像不同，BG图像没有特定的语义，包含大量与任务无关的信息;单个原型，如Eq. 3，无法覆盖其高方差(在第IV-C节中讨论)。在这两个问题的驱动下，我们提出了一个细粒度的原语，称为负兴趣区域(NROI)，以全面建模具有不同语义混合的图像BG。

NROI 对于背景表示：与现有方法[7]、[33]、[47]不同，这些方法在共同的空间中表示前景（FG）和背景（BG）的语义，我们独立地对图像背景进行建模，以便更好地将其与前景区分开来。具体来说，我们增加了另一个投影头 φbg（如图2所示），与 φfg 平行，从不同的映射中寻找可靠的背景表示：φbg : f → Zbg, Zbg ∈ R^D×H×W。一种简单的暴力方法（图3(a)）是使用Zbg中的所有背景特征来执行优化，即逐像素对比，这将非常耗时且计算成本高昂。此外，训练集D中背景区域内部大规模的变化和高度复杂性也挑战我们开发一种有效的表示方法来表示其内容。为此，假设图像背景由多种语义组成，我们探索发现细粒度的语义，并有效地使用NROI来表示它们。具体来说，一组K个NROIs $\left \{ z_{bg}^{k} \right \}_{k=1}^{K}$ 被用于背景描述，其中k是相对于输入x的NROI索引。我们执行在线聚类[51]以确定NROI。我们从遮蔽的Zbg中获取背景特征（带有H中的空间信息）并将它们映射到K个聚类中，使用Kmeans算法。直观地说，聚类[27]、[51]引入了一种归纳偏置[51]，即图像背景由多种语义组成，从而使模型能够发现具有区分性的像素组，即语义。因此，每个图像的NROIs $\left \{ z_{bg}^{k} \right \}_{k=1}^{K}$ ，定义为聚类中心，是背景语义的典型表示（见图3(b)）。

图2：架构概述。一个标准的具有分类损失Lcls（带有TAP[4]）的特征编码器接受输入图像x并生成种子H。我们认为图像背景（BG）与前景（FG）有不同的语义粒度，并添加了两个投影头φfg和φbg，独立于FG对BG进行建模，以捕捉多样化的背景信息，并优化两种对比关系：（1）前景到背景和（2）前景内部。（1）通过提出的细粒度原语，即NROIs，增强了语义特征f在表示背景语义方面的表现。我们计算FG原型，并将NROIs存储在内存库中。此外，引入了辅助背景分割损失Lseg。在（2）中，我们提出了一种基于语义图的主动采样策略来抽取FG负样本。对比损失Lbg_pcl用于（1），Lfg_pcl用于（2），将查询拉近其原型，但分别从FG和BG负键推开。

对比损失 (Lbg_pcl 和 Lfg_pcl):

Lbg_pcl 和 Lfg_pcl 是两种对比损失函数，分别用于优化前景（Foreground, FG）和背景（Background, BG）的特征表示。
Lbg_pcl 用于（1），即前景到背景（Fore-to-background, FB）的对比学习。这个损失函数的目的是将查询（query）特征向其对应的原型（prototype）拉近，同时将其与背景负键（negative keys）推开。背景负键是指那些与查询特征不相似的背景特征。
Lfg_pcl 用于（2），即前景内部（Intra-foreground, IF）的对比学习。这个损失函数的目的是将查询特征向其对应的前景原型拉近，同时将其与前景负键推开。前景负键是指那些与查询特征不相似的前景特征。

将查询拉近其原型:

在对比学习中，原型通常是指一类特征的代表性表示，它可以是类别的平均特征或者通过其他方式计算得出的中心特征向量。
查询（query）特征是指模型当前的预测特征，它可能是某个像素或区域的特征表示。
损失函数通过拉近查询特征和原型特征的距离，使得模型能够学习到更准确的类别特征表示。

从FG和BG负键推开:

负键（negative keys）是指那些与查询特征不相似的特征，它们通常用于提供对比学习中的“负例”。
推开负键的目的是增强模型对不同类别特征的区分能力，使得模型能够更好地区分不同类别的特征。

NROIs存储在内存库:

NROIs（Negative Regions of Interest）是指在图像背景中识别出的具有特定语义的区域，它们用于帮助模型更好地理解和区分背景。
内存库（memory bank）是一个数据结构，用于存储这些NROIs，以便在训练过程中快速访问和使用。
在训练过程中，模型会不断更新内存库中的内容，以便更好地表示背景的多样性和复杂性。

图3：负兴趣区(NROI)在FB对比中的概念说明。蛮力策略(a)将FG查询(红色裁剪的部分)与所有BG像素(三角形)进行详尽的比较，这需要昂贵的计算资源，并且容易受到不可信标签的影响。通过对比(b)，我们建议识别细粒度的BG语义，即NROI。本例的nroi(用不同颜色标记)包含洗衣机、衣柜等。在训练中，我们通过比较查询(红色矩形)和nroi来实现FB对比学习。

背景内存库：我们构建了一个基于队列的内存库 [3]，记为 $z_{bg}^{n}$ ，用于存储NROIs，并将其设置为固定存储，以提高空间和计算效率。正如图2所示，该内存库在每个训练步骤中都会用提取的NROIs进行更新，然后我们使用从 $z_{bg}^{n}$ 中随机抽取的背景负键与前景查询进行对比。

辅助背景分割。与之前的研究[7]、[42]不同，FBR采用了两个投影头来执行对比学习，这带来了Zf g（前景特征表示）和Zbg（背景特征表示）之间表示趋于同质化的风险。为了避免这种平凡情况，我们为背景表示Zbg制定了一个学习目标，将其与Zf g区分开来，并增强其背景辨别能力。具体来说，我们引入了二元分割作为辅助任务，经验性地将H中前景激活值之和较低（小于0.05）的像素视为伪背景标签（称为M），并将Zbg（经过批量归一化后）输入背景预测器φseg：

其中BCE是二值交叉熵损失。

像素- nroi对比:使用查询集(Eq. 4)和BG记忆库，我们给出FB对比损失为:

这种像素与nroi的对比最大化了查询与其所属原型之间的一致性，同时最小化了与BG语义(即nroi)之间的一致性。

3. 前景内(IF)对比学习:本部分提出一种主动负采样方法，选择FG负键，进行有效的IF对比

Active negative sampling:我们首先定义查询类别c的完整负样本集， $z_{c}^{n}$ ，它包含了所有不属于类别c的前景像素：即，。然而，与 $z_{c}^{n}$ 中的所有样本进行对比是计算成本高昂的。此外，由于种子H的标签信息不可信，对比学习可能无效，甚至可能降低整体性能。

受最近的半监督语义分割研究[31]的启发，我们提出积极地从 $z_{c}^{n}$ 中提取负值，并仅使用选定的样本进行优化，以克服上述限制。对于每个批处理，我们计算一个图G∈R ^C×C，其中节点和边代表发生的类及其相对语义关系:

这里Sim是余弦相似度。与[31]不同的是，我们将BG类从图中排除，并使用FG原型之间的语义距离，而不是均值特征之间的语义距离来度量成对关系G[i, j]。

对于每个查询类别 c，我们将它们在 G 中与负类别的关系转换为通过softmax函数得到的概率分布：我们根据这个分布从 $z_{c}^{n}$ 中对每个负类别 i 进行采样。直观地说，这一步在 $z_{c}^{n}$ 上执行非均匀采样，从与 c 语义相似的类别中抽取更多的样本，而从语义不相似的类别中抽取较少的样本。这使得分类器能够学习到更紧凑的前景特征和准确的决策边界，通过提高对混淆的负类别的辨别能力。

查询类别 cc：这是当前正在处理的类别。

关系 GG：这是一个矩阵，其中 G[i,j]G[i,j] 表示类别 ii 和类别 jj 之间的语义关系。

负类别：在对比学习中，负类别是指与查询类别 cc 不同的类别。

softmax函数：这是一个将输入值转换为概率分布的函数，使得所有类别的输出概率之和为1。

非均匀采样：这是一种采样方法，它不是随机均匀地从所有类别中采样，而是根据softmax函数得到的概率分布来进行，使得模型更关注与当前查询类别语义上更接近的类别。

前景特征：指的是模型学习到的用于区分不同前景对象的特征。

决策边界：在特征空间中，决策边界是分类器用于区分不同类别的界限。

通过这种方法，模型可以更有效地学习如何区分前景中的不同类别，尤其是在存在语义上容易混淆的类别时。这有助于提高模型在弱监督语义分割任务中的性能。