原文链接:https://arxiv.org/pdf/2305.05154v1.pdf
1.论文要解决的问题及其难点?
近年来,语义分割已经取得了巨大的进步,在很多领域展现出巨大的应用潜力,如自 动驾驶、医学分析。但对于有监督的语义分割模型而言,收集像素级别的标签是一件费事费力的事。因此,很多研究者就把目光注意到弱标签(image-level label annotation, scribble, bounding boxes and point)上,以此来解决收集标签困难这件事,本文利用的是image-level label annotation,作者提出了一个基于显著图(saliency maps)的WSSS
模型,将图像级的标签分配给图像中对应的显著区域(salient region)
,
以此来获得图像伪标签,并用于语义分割,但是这样获得的显著区域可能会包含噪声甚至包含其他与目标区域无关的部分,此外显著图仅仅适用于只包含一个目标的简单图片,对于包含多个目标的图片,它生成的显著区域效果并不好,由于简单图像和复杂图像的数据分布存在巨大的差异,因此用简单图像训练得到的模型很难泛化到复杂图像上。所以,如何处理伪标签的噪声和提高模型的泛化能力是本文要处理的一大难点。
2.以前解决该问题的方法及不足之处?
过去的很多弱监督语义分割(WSSS)方法通常会训练一个分类网络,然后利用类激活图 (CAMs)得到伪标签。然而CAMs仅仅能定位目标区域中最具判别力的部分,这样无法获得精确 的像素级伪标签,从而影响最终的分割效果。因此,最近很多基于CAMs的WSSS方法都在设法增 大CAMs得到的激活区域,以此来让目标区域的伪标签更加完整,但是这样的操作涉及复杂的语义传播以及繁琐的后处理操作,极大阻碍了高效端到端语义分割模型的设计。尽管最近一些单阶段的方法对这一问题进行了探索,不过它们在性能上无法和现存的多阶段方法相比,此外为了生成更好的伪标签,他们需要一个分类网络、一个CAMs精炼模型、一个分割网络,因此需要巨大的计算开销,从而导致分割效率下降。
3.论文的方法及实验结果?
为了解决上面提到的这些问题,本文提出了一个多粒度去噪和双向对齐模型(MDBA
),以此来减小标签中的噪声和图像之间分布差异的问题。如下图(a)所示:本文将噪声分为像素级噪声和图像级噪声,因为图像级噪声会破坏网络的训练过程,因此本文提出一个在线噪声滤波模块(online noise filtering module)来去除含有图像级噪声的伪标签,为了进一步提升伪标签的质量,本文又提出渐进式噪声检测模块(progressive noise detection module)来识别出 错误的像素标签。另外,如下图(b)所示:为了缓解只使用简单图片训练模型而带来的多类泛化问题,本文利用将简单图片生成复杂图片,在输入的实现了从简单到复杂图像的数据分布对齐,在输出端又使用对抗学习的方法,实现复杂到简单图像的对齐,这些操作的目标都是为 了让模型对复杂图片的处理尽可能和简单图片一样。
本文使用的数据集是PASCAL VOC 2012数据集和
MS COCO
数据集,评价指标是
mIoU
。和单阶段方法进行比较时,本文在PASCAL VOC 2012
验证集和测试集上
mIoU
分别达到了66.3%和
66.4%
,比
RRM
、
SSSS
分别提高了
2.4%
和
0.7%
,当使用在
COCO
上预训练好的权重训 练分割网络时,在验证集和测试集上的mIoU
达
69.5%
和
70.2%
。借鉴
RRM
和
SSSS
的经验,本文 将MDBA
扩展成两阶段模型,此时在
PASCAL VOC
验证集和测试集上
mIoU
分别达到了
70.0% 和70.2%
,比现存最好的方法提高
3.6%
,当使用在
COCO
上预训练好的权重训练分割网络时,在验证集和测试集上的mIoU
达
72.0%
和
71.5%
。在
MS COCO
数据集上,当使用端到端单阶段训练模型时,本文的mIoU
是
36.0%
,当拓展为两阶段模型时,
mIoU
达
37%
。
最后,本文利用MDBA
(本文提出的方法)和
ESP
(当前基于
CAMs
最好的方法)生成的伪标签去训练一个分割网络,在PASCAL VOC
验证集和测试集上
mIoU
分别达到了
73.5%
和 73.1%。证明基于显著图的方法和基于类激活图的方法之间存在互补性。
4.方法分析 (重点)
如下图所示,本文提出的MDBA
主要分为四个部分:
Online Image-Level Noise Filtering、
Progressive Pixel-Level Noise Detection、
S2C Alignment
、
C2S Alignment
。
Online Image-Level Noise Filtering:通过比较分割网络的预测结果与伪标签之间的噪声比(1-IoU
),如果噪声比大于预定值,就将该伪标签视为不合格标签,在网络的训练过程中直 接将该伪标签淘汰掉,从而避免误导梯度的反向传播。
Progressive Pixel-Level Noise Detection:处理完图像级噪声之后,还要去除部分伪标签中存在的像素级噪声。在这个部分,首先同样是将一个网络的分割网络的预测结果和伪标签 (pseudo label)进行比较,并计算每个像素对应的交叉熵损失,然后利用这个损失值可以得到一个噪声像素掩码 Ah,
w,根据这个掩码,可以去除分割网络预测图和伪标签中不同的部分,最后利用不断优化分割网络,得到一个包含噪声更少包含目标区域更多的伪标签。