Learning Pixel-level Semantic Affinity with Image-level Supervisionfor Weakly Supervised Semantic S

最新推荐文章于 2024-10-12 20:31:18 发布

sanguine__

最新推荐文章于 2024-10-12 20:31:18 发布

阅读量656

点赞数 23

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/sanguine__/article/details/140639000

版权

无代码

摘要

我们提出了一种称为AffinityNet的深度神经网络(DNN)，用于预测一对相邻图像坐标之间的语义亲和力。

然后使用AffinityNet预测的亲和力通过随机行走实现语义传播。

更重要的是，用于训练AffinityNet的监督是由初始的判别部分分割给出的，作为分割标注是不完整的，但对于小图像区域内的语义亲和力学习是足够的。因此，整个框架仅依赖于图像级别的类标签，不需要任何额外的数据或注释。

在PASCAL VOC 2012数据集上，使用我们的方法生成的分割标签学习的深度神经网络优于以前使用相同监督水平训练的模型，甚至与依赖更强监督的模型一样具有竞争力。

1.引言

给定图像及其cam，我们首先构建一个邻域图，其中每个像素在一定半径内与其邻居相连，并通过AffinityNet估计图中连接对的语义亲和力。然后，cam中的稀疏激活通过图上的随机行走[23]扩散，对于每个类:图中边缘上的亲和力鼓励随机行走将激活传播到附近和语义相同的区域，并惩罚传播到其他类的区域。这种语义扩散极大地修正了cam，从而恢复了精细的物体形状。我们将此过程应用于训练图像，通过在每个像素处获取与修改后的cam的最大激活相关的类标签来合成其分割标签。生成的分割标签用于训练用于测试的分割模型。

为了生成可靠的局部语义亲和力标签，我们忽略了CAMs上激活分数相对较低的区域，只留下自信的对象和背景区域。然后在置信区域上对相邻的一对图像坐标进行采样得到训练样例，如果其坐标属于同一类，则其二值标号为1，否则为0。

所建议的方法的整体流程如图1所示。首先，计算训练图像的cam并利用其生成语义亲和标签，作为AffinityNet训练的监督;然后，我们将训练好的AffinityNet应用于每个训练图像，计算其邻域图的语义亲和矩阵，在随机漫步中对其cam进行修正，得到合成的分割标签。最后，生成的分割标签用于训练语义分割DNN，这是测试时将使用的唯一网络。我们的贡献有三个方面:

我们提出了一种新的深度神经网络AffinityNet，它在像素级预测高级语义亲和力，但只使用图像级的类标签进行训练。
与大多数以前的弱监督方法不同，我们的方法不依赖于现成的技术，而是通过AffinityNet的端到端训练利用表征学习。
在PASCAL VOC 2012[8]上，我们的模型在相同监督水平下训练的模型中取得了最先进的表现，与那些依赖于更强监督或外部数据的模型相比具有竞争力。令人惊讶的是，它甚至优于早期著名的全监督模型FCN[22]。

本文的其余部分组织如下。第2节回顾了以前与我们的方法密切相关的方法，第3节详细描述了我们框架的每个步骤。然后，我们在第5节中对公共基准上提出的框架进行了实证评估，并在第6节中进行了简短的评论

图1：首先通过CAMs在训练图像中定位目标类和背景的显著区域[40](第3.1节)。从显著区域抽取相邻坐标对，并根据其类一致性对其进行二值标记。然后使用标记对训练AffinityNet(第3.2节)。训练后的AffinityNet反过来预测局部图像区域内的语义亲和力，将其与随机游走结合以修改CAMs(第3.3节)并生成其分割标签(第3.4节)。最后，利用生成的标注作为监督来训练语义分割模型。

3.我们的框架

我们的弱监督语义分割方法大致分为两部分:(1)在给定训练图像的图像级分类标签的情况下，合成像素级的分割标签;(2)使用生成的分割标签学习语义分割的DNN。整个框架基于三个深度神经网络:一个计算CAMs的网络，AffinityNet和一个分割模型。前两个用于生成训练图像的分割标签，最后一个是执行实际语义分割的DNN，并使用合成的分割注释进行训练。本节的其余部分将详细描述这三种网络的特点和培训方案。

3.1计算CAMs

在我们的框架中，它们被用作培训AffinityNet的监督来源。

我们采用[40]的方法计算训练图像的cam。该体系结构是一个典型的分类网络，具有全局平均池化(GAP)和全连接层，并通过带有图像级标签的分类标准进行训练。给定训练好的网络，真值类c的CAM(用Mc表示)由式计算：

其中wc为与c类相关联的分类权值，f (x, y)表示GAP前特征映射上位于(x, y)处的特征向量。Mc进一步归一化，使最大激活等于1:Mc(x, y)→Mc(x, y)/ $max_{x,y}M_{c}\left ( x,y \right )$ 。对于任何与ground truth无关的类c'，我们通过使其激活分数为零来忽略Mc '。我们还估计了一个背景激活图，它由

其中C为对象类别集合，α≥1表示调整背景置信度得分的超参数。通过我们的方法获得的cam的定性示例如图2所示。

图2：通过我们的方法获得的CAMs的可视化。(a)输入图像。(b)目标类的cam:越亮表示目标区域越可信。(c)背景CAMs:颜色越深表示背景区域越可信

3.2学习AffinityNet

AffinityNet旨在预测训练图像上一对相邻坐标之间的类别不可知论语义亲和力。将预测的亲和力作为过渡概率用于随机行走，使随机行走将cam的激活分数传播到同一语义实体的附近区域，从而显著提高了cam的质量。

为了提高计算效率，AffinityNet被设计用于预测卷积特征映射 $f^{aff}$ ，其中一对特征向量之间的语义亲和力是根据它们的L1距离定义的。具体来说，特征i和j之间的语义关联用Wij表示，定义为

L1距离计算两个点在各个坐标轴上的绝对差值的和。这个名字来源于它类似于在网格状的城市街区中沿着街道行走的距离。

式中(xi, yi)表示第i个特征在特征图aff上的坐标，这样，通过网络的一次前向传递，就可以高效地计算给定图像中的大量语义亲和力。图3说明了AffinityNet体系结构及其计算aff的方式。训练这个架构需要特征映射坐标对的语义关联标签，即Eq.(3)中Wij的标签。然而，在我们只给出图像级标签的设置中，这种标签不能直接获得。在本节的其余部分中，我们将介绍如何生成亲和标签并使用它们训练AffinityNet。

3.2.1 生成语义亲和标签

为了用图像级标签训练AffinityNet，我们利用训练图像的cam作为不完整的监督来源。

我们的基本思想是从cam中识别对象和背景的自信区域，并仅从这些区域中提取样本训练示例。为了估计对象的自信区域，我们首先通过减小Eq.(2)中的α来放大Mbg，以便背景分数在CAMs中支配对象的不重要激活分数。（当减小 𝛼α 时，背景激活图 𝑀𝑏𝑔Mbg 会被放大，使得背景区域的激活分数增加。这样做的目的是让背景区域在CAMs中更加显著，从而在后续的语义亲和性学习中更容易区分背景和对象。）在将dCRF应用于cam进行细化后，我们通过收集目标类的分数大于包括放大背景在内的任何其他类的分数的坐标来确定每个对象类的自信区域。此外，在相反的设置中(即增加α以削弱Mbg)，可以以相同的方式识别出自信的背景区域。图像中的剩余区域被认为是中性的。此过程的结果如图4(A)所示。

现在可以根据由置信区域确定的类标签为每对坐标分配一个二元亲和标签。对于两个非中性的坐标(xi, yi)和(xj, yj)，如果它们的类相同，则它们的亲和标记W * ij为1，否则为0。同样，如果至少有一个坐标是中性的，我们在训练过程中直接忽略这对。如图4(b)所示，该方案使我们能够收集相当多的成对亲和标签，这些标签也足够可靠。

图4：生成语义关联标签的概念说明。(a)对象类别和背景的自信区域:人物为桃色，植物为绿色，背景为黑色。中性区域用白色编码。(b)为训练AffinityNet在小半径内抽样的坐标对。如果两个坐标来自同一类，则为每对分配标签1，否则为0。当两个坐标中至少有一个属于中立区域时，在训练过程中忽略这对坐标。

3.2.2AffinityNet 训练

AffinityNet是通过用Eq.(3)的预测语义亲和力Wij以梯度下降方式逼近二元亲和力标签W * ij来训练的。特别是，由于以下两个原因，在训练中只考虑足够相邻的坐标的亲和力。首先，由于缺乏上下文，很难预测距离太远的两个坐标之间的语义亲和力。其次，通过只对相邻坐标对进行寻址，可以显著降低计算成本。因此，训练中使用的坐标对集合，记为P，由式给出

其中d(·，·)为欧氏距离，γ为限定所选对之间距离的搜索半径。

但是，由于类别不平衡问题，直接从P学习AffinityNet是不可取的。我们观察到，在P中，类分布明显偏向于正类分布，因为负对仅在对象边界附近采样。在正对子集中，背景对的数量明显大于物体对的数量，因为很多照片的背景面积大于物体面积。为了解决这个问题，我们将P分成三个子集，并从各个子集中获得总损失。

具体来说，我们首先将P划分为正对和负对两个子集：

并进一步将P +分别分解为对象和背景的P + fg和P + bg。然后计算每个子集的交叉熵损失如下:

最后，将训练AffinityNet的损失定义为

注意，Eq.(10)中的损失是类不可知论的。因此，训练后的AffinityNet在不明确知道两个相邻坐标的类的情况下决定它们之间的类一致性。这种与类别无关的方案允许AffinityNet学习一个更一般的表示，可以在多个对象类别和背景之间共享，并显着扩大每个类别的训练样本集。

3.3使用AffinityNet修改cam

训练后的AffinityNet用于对训练图像的CAMs进行修正。AffinityNet预测的局部语义亲和力被转换成一个转移概率矩阵，使随机行走能够感知图像中的语义边界，并鼓励它在这些边界内扩散激活分数。我们的经验发现，带有语义转移矩阵的随机行走显著提高了CAMs的质量，从而使我们能够生成准确的分割标签。

对于输入图像，AffinityNet生成卷积特征图，根据Eq.(3)计算图上特征之间的语义亲和力。注意，与AffinityNet的训练一样，在半径为γ的局部圆内计算特征之间的亲和力。计算出的亲和力形成一个亲和力矩阵W，其对角元素为1。随机游走的转移概率矩阵T由亲和矩阵推导为:

在上式中，超参数β的值大于1，使得原始亲和矩阵的Hadamard幂W◦β忽略了W中的不重要亲和。因此，使用W◦β代替W使我们的随机行走传播更保守。W◦β的逐行归一化计算对角矩阵D。

通过对T的随机游走，通过将T乘以cam来实现语义传播的单个操作。我们迭代地执行这种传播，直到达到预定义的迭代次数。则c类的修正CAM $M_{c}^{*}$ 由式给出

式中vec(·)表示矩阵的向量化，t表示迭代次数。注意，t的值被设置为2的幂，因此Eq.(12)只执行 $log_{2}^{}t+1$ 次矩阵乘法。

3.4 学习语义分割网络

使用训练图像的修正cam来生成图像的分割标签。由于cam的尺寸小于其输入图像，我们通过双线性插值将其上采样到图像的分辨率，并使用dCRF对其进行细化。然后，只需选择与修正和上采样cam中每个像素的最大激活分数相关的类标签，即可获得训练图像的分割标签。背景类也可以选择，因为我们为背景和对象类计算cam。

用上述过程得到的分割标签作为监督来训练分割网络。我们的方法可以采用任何完全监督的语义分割模型，因为我们提供了训练图像的分割标签。

4.网络体系结构

4.1. Backbone Network

我们框架中的三个dnn都建立在同一个骨干网络上。主干是A1[38]模型的改进版本，也称为ResNet38，具有38个宽通道的卷积层。为了得到骨干网，首先去除原始模型的最终GAP和全连接层。然后将最后三个层次的卷积层替换为输入步长为1的膨胀卷积，并调整其扩张率，使骨干网络返回步长为8的特征图。众所周知，在不牺牲特征图分辨率的情况下，通过扩大接受野来提高分割质量[4]。我们根据经验观察到，它也适用于我们的弱监督模型，CAM和AffinityNet，因为它使模型能够恢复物体的精细形状。

4.2我们的框架中dnn的细节

网络计算CAMs:我们通过在骨干网的顶部按顺序添加以下三层来获得该模型:具有512通道的3×3卷积层，用于更好地适应目标任务;用于特征图聚合的全局平均池化层;用于分类的全连接层。

AffinityNet:该网络旨在聚合骨干网的多层特征图，以便在计算亲和力时利用在不同视场获得的语义信息。为此，选择骨干网最后三层输出的特征映射。在聚合之前，通过单独的1×1卷积层分别将第一、第二和第三个特征映射的通道维数减少到128、256和512。然后将这些特征映射连接成一个具有896个通道的单一特征映射。最后，我们又添加了一个1×1卷积层，上面有896个通道用于自适应。

表1：mIoU中合成分割标签的准确性，在PASCAL VOC 2012训练集上进行了评价。SPN: Superpixel Pooling Net of [17]， RW: random walk with AffinityNet。

图5：PASCAL VOC 2012基准中训练图像合成分割标签的定性示例。(a)输入图像。(b) Groundtruth分割标签。(c)对象类的cam。(d)预测语义亲和力的可视化。(e)合成分割注释。

分割模型:我们严格按照[38]来构建我们的分割网络。具体地说，我们在主干的顶部放置了两个更大的卷积层。它们的扩张速率都是12，而第一个通道的数量是512，第二个通道的数量是21。生成的网络在下一节中称为“our - resnet38”。

5.实验

5.2合成分割标签的分析

我们的标签合成方法的性能以groundtruth和生成的分割标签之间的mIoU为单位进行测量，如表1所示。对于消融研究，我们的方法分为三个部分:CAM、RW (random walk with AffinityNet)和dCRF。为了证明所提出方法的优势，我们还报告了Superpixel Pooling Net (SPN)[17]的得分，该得分将CAM和超像素作为附加线索，以图像级标签监督生成分割标签。如表1所示，在不使用超像素等现成技术的情况下，即使我们的CAM在生成分割标签的质量方面也优于SPN。我们认为这是因为各种数据增强技术和更强大的主干网与亚鲁斯卷积层。此外，通过使用学习到的语义亲和力进行随机漫步，显著提高了切分注释的质量，证明了AffinityNet的有效性。最后，dCRF进一步略微提高了标签质量，我们使用最后一个版本作为学习分割网络的监督。

图5显示了合成分割标签的示例，其中可以看到AffinityNet的随机漫步有效地处理了cam中的误报和缺失区域。为了说明AffinityNet在这一过程中的作用，我们还通过检测特征映射aff上的边缘来可视化预测图像的语义亲和力，并观察到AffinityNet虽然使用图像级标签进行训练，但仍具有检测语义边界的能力。由于这些边界对语义不同的物体之间的随机游走传播进行了惩罚，合成的分割标签可以恢复物体的准确形状。

6 结论

为了缓解语义分割中缺乏注释数据的问题，我们提出了一种基于AffinityNet的框架，仅在给定训练图像的图像级类标签的情况下生成准确的分割标签。

我们的方法的有效性已经在PASCAL VOC 2012基准上得到了证明，其中使用我们的方法生成的标签训练的dnn在依赖于相同监督水平的情况下，大大超过了以前的技术水平，并且与那些需要更强监督或额外数据的dnn具有竞争力

sanguine__

关注

23
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫