《论文笔记》--Non-Salient Region Object Mining for Weakly Supervised SemanticSegmentation

摘要语义分割的目的是对输入图像中的每一个像素进行分类。考虑到密集标签难以获取的问题,近年来研究人员开始采用弱标签来减轻分割的标注负担。然而,现有的研究主要集中在扩展图像显著区域内的伪标签种子本文提出了一种用于弱监督语义分割的非显著区域对象挖掘方法。我们引入了一个基于图的全局推理单元,以加强分类网络捕捉不相交和遥远区域之间的全局关系的能力这有助于网络激活突出区域之外的物体特征。为了进一步挖掘不显著区域目标,我们提出发挥分割网络的自校正能力。提出了一种潜在对象挖掘模块,以降低伪标签中的假阴性率。此外,我们还针对复杂图像提出了一种非显著区域掩蔽模块来生成掩蔽的伪标签我们的非显著区域掩蔽模块有助于进一步发现非显著区域内的目标。

介绍:解决语义分割注释问题的一个有希望的方法是学习弱标签,例如图像级注释,边界框,点和涂鸦。本文顺应当前的趋势,重点研究利用图像级标签实现弱监督语义分割(WSSS)。

  为了解决仅使用图像级标签的WSSS任务,基于可视化的方法被广泛采用,以缩小分类和分割之间的标注差距。典型的方法用图像级标签训练分类网络。然后利用类激活映射(CAMs)生成伪标签来训练分割网络。然而,这些从分类网络得到的激活图是稀疏和不完整的。它们只能定位物体中最具辨别力的部分。提出的解决方法有:观察到分类网络产生的注意图在训练过程中聚焦于不同的物体部位因此,他们提出了一种在线注意力积累(OAA)策略来组合不同激活区域。缺点现有的研究主要集中在放大显著区域的响应图。然后利用显著性图提取背景。对非突出区域的采矿对象的研究较少 

图1。传统方法与我们的比较。(a)输入图像。(b)显著图。(c)传统方法的结果。它们主要集中在扩展图像显著区域内的伪标签种子。它们只在显著区域得到良好的分割结果。(d)我们的结果。该方法还对非显著区域内的目标进行了挖掘,在显著区域内和显著区域外都取得了较好的效果。彩色观看效果最佳。

本文采取的办法:提出了一种用于弱监督语义分割的非显著区域对象挖掘方法

1.相比于广泛采用的中心先验进行显著性检测,非显著性区域通常分散在图像的角落或边缘附近。我们就要求网络利用周围不相交、距离较远的信息。传统的基于cnn的分类网络擅长于局部关系建模,但在获取不相交区域和距离较远区域之间的全局关系方面效率较低。为此,我们引入了一种基于图的全局推理单元以增强分类网络激活显著区域外物体特征的能力

2.现有的方法虽然能够成功地对物体的激活区域进行放大,但不可避免地会将物体区域扩展到背景。这些方法需要显著性地图提供背景线索。显著性地图可以校正显著区域附近的像素标签,但也可以去除显著区域外的物体标签。我们注意到,虽然稀疏和不完整的原始的CAM没有精确的边界,但它可以为非显著区域的物体提供有用的线索。因此,我们提出了一个潜在的对象挖掘模块以发现更多在明显区域之外但在原始CAM中被激活的对象我们的潜在对象挖掘模块旨在降低伪标签的假阴性率(在这种情况下,对象区域被错误地标记为背景)。这提高了伪标签的质量,鼓励分割网络发挥其自校正能力。

3.之后,我们根据每幅图像中类别的数量将训练图像分为简单集和复杂集。带有单一对象类别的简单图像通常有一个干净的背景。它们的目标往往存在于显著区域,能够被正确分割。相比之下,复杂的图像(有两类或两类以上的物体)更容易在突出区域之外有物体。因此,我们提出了一种针对复杂图像的非显著区域掩蔽模块来生成掩蔽的伪标签

 The Proposed Approach

上图所示。给定一组带有图像级标签的训练图像,我们训练一个分类网络。我们利用类激活映射来生成伪标签来学习一个分割网络。不同于现有的方法主要集中在显著区域的伪标签精炼,我们建议发现更多的对象在非显著区域进行弱监督语义分割。为此,我们在分类网络中插入一个基于图的全局推理单元。这有助于激活突出区域之外的物体特征。我们还采用潜在对象挖掘模块(POM)非显著区域掩蔽模块(NSRM)提高非显著区域对象挖掘的伪标签质量。

CAM Generation:为了增强分类网络捕捉不连通区域和距离较远区域之间全局关系的能力,我们在最终分类器之前引入了一个基于图的全局推理单元。全局推理模块将帮助网络激活突出区域以外的目标部分。编码器生成的特征X∈❘L×K, K为特征维数,L = H × W位置,首先从坐标空间投影到潜在的交互空间。投影函数V = f (X)∈❘N×K用线性组合表示:

 

其中B = [b1,···,bN]∈❘N×L为可学习的投影权值,N为交互空间中的特征(节点)数量。

然后使用一个图卷积来捕捉新空间中的特征之间的关系:

Ag表示训练时通过梯度下降学习到的N × N个节点邻接矩阵。Wg表示状态更新功能

得到节点特征Z∈❘N×K后,反向投影Y = g (Z)∈❘L×K,将特征投影回原始空间:

式中D = [d1,···,dN] = BT。

对于分类网络的训练,我们采用的多标签软边际损失如下:

这里pc是对第c类网络的预测。σ(·)为sigmoid函数,C为前景类总数。Yc是CTH类的图像级标签。如果类在图像中存在,则其值为1;否则,其值为0。

我们通过选择最终分类器生成的类特定特征映射来获得cam。在OAA的基础上,我们生成了具有更多完整区域的在线累计类注意力地图(OA-CAMs),并利用其整体注意力模型对目标对象区域的低注意力值进行强化。

Potential Object Mining在获得OA-CAMs后,OAA的工作利用它们提取物体线索显著图提取背景线索。通过比较每个OA-CAM的值来分配每个像素的类标签。如图所示,利用显著图提供的形状信息,经过背景提取(background extraction, BE)处理后,得到了具有相当清晰的物体边界的初始标签然而,最初的标签遗漏了许多物体部件外的显眼区域。因此,我们建议在非显著区域中发现更多的目标虽然OA-CAM对目标像素的查全率很高,但其精度较低。相比之下,CAM被广泛用于生成代理分割标签的初始种子,召回率低,但精度高因此,我们提出了一个潜在对象挖掘(POM)模块发现CAM中激活的对象区域我们对图像中存在的类c使用类自适应阈值Tc来挖掘潜在对象:

其中v为CAM中像素的注意值集合,其位置p的选择如下

 

式中aij为CAM中(i,j)位置的注意值。Lij是(i,j)位置的初始标签中的值,表示像素的伪标签。如式5和式6所示,如果初始标签包含c类,我们在其CAM中选择这些像素点,并选择其注意值的中值(MED)为Tc。否则,我们选择其CAM中注意值大于背景阈值Tbg的像素,并选择其注意值的上四分位数(top四分位数TQ)作为Tc。

然后我们对初始标签进行如下调整:

这里ac表示c类的CAM。如式7所示,初始标签中任何CAM注意值大于T的背景像素(标记为0)被标记为255,在训练中被忽略。我们不将它们标记为对应的潜在类,以避免引入错误的对象标签。该策略避免了在显著区域外定位目标边界的必要性。我们的重点是降低伪标签的假阴性率,这将有助于丢弃由误导信息产生的梯度。

 Non-Salient Region Masking:我们的潜在对象挖掘策略用更多被忽略的像素丰富了伪标签。它允许分割网络在训练过程中预测这些潜在目标区域的正确标签。改进的伪标签质量也可以鼓励分割网络修复其他错误标记的区域。因此,我们建议进一步利用分割模型的预测来生成更高质量的伪标签进行再训练我们注意到,只有一类物体的简单图像通常有一个干净的背景。这些图像中的目标往往存在于显著区域中,通过分割网络可以正确地进行分割。然而,复杂的图像(包含两类或两类以上的物体)更容易在突出区域之外出现物体。对于分割网络来说,利用伪标签只包含显著区域内的物体标签来检测显著区域外的物体仍然是一个挑战。因此,我们提出了一种非显著区掩蔽(NSRM)模块。将分割网络中的目标信息预测和伪标签相结合,生成复杂图像的掩码标签。

 我们提出的非显著区掩蔽模块如图所示。基于显著区域内的目标标签是高概率正确的假设,我们首先在伪标签的引导下对初始预测的目标区域进行扩展。然后从扩展的预测映射中提取目标掩码。之后,我们用一个扩张操作来扩展物体遮罩。最后,对扩展的预测映射进行屏蔽操作,得到被屏蔽的伪标签。注意,膨胀操作引入了物体周围背景的一小部分。它保留了目标的边界信息,对成功的分割网络具有重要意义

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值