【论文阅读】基于多尺度注意力融合的弱监督语义分割自训练框架
A Self-Training Framework Based on Multi-Scale Attention Fusion for Weakly Supervised Semantic Segmentation
由于难以获得完整的语义区域,基于图像级标签的弱监督语义分割(WSSS)具有挑战性,所以这里的标签都是用的图像级的标签
为了解决这个问题,我们提出了一种利用融合的多尺度类意识注意图的自我训练方法
特征图中:
- 特别是对于大对象和小对象,包含丰富的互补信息
- 从不同尺度的注意图中收集信息,得到多尺度的注意图
我们应用去噪和再激活策略来增强潜在区域并减少噪声区域
;使用改进的注意力图对网络进行再训练
PASCAL VOC 2012验证集和测试集上进行实验
一、介绍
语义分割作为计算机视觉中的一项重要任务,在许多领域发挥着重要作用
训练一个完全监督的语义分割需要密集的注释
引入了弱监督语义分割(WSSS),它只需要粗糙的标签
本文主要研究基于图像级标签的WSSS
现有方法大多采用类激活映射(Class Activation Mapping, CAM)提供初始位置线索,并作为伪分割标签训练语义分割模型
类感知注意图(CAMs)倾向于关注最具区别性的区域,这与语义分割所需的密集注释存在差距
为了减少CAM存在的差距:
- 区域删除和增长
- 使用额外的监督信息
- 以及自监督学习
其实本质上都是为了生成更精确的伪掩码
当呈现不同尺度的图像时,WSSS模型的响应可能会有所不同
他们的注意力图像呈现出来的效果并不相同
这些差异表现出一定程度的互补性,这与图像中物体的大小有关
而缩小图像生成的注意图则可以更好地捕获语义信息
相应操作:
- 利用多尺度注意图的自训练框架来提高模型的性能
- 最初的多尺度注意图通常包含有噪声和未激活的区域。为了改进它们,我们采用了去噪和再激活策略
- 使用改进的多尺度注意图来监督网络对单尺度图像的响应
在常见的实践中,多尺度方法往往直接用于推理阶段生成伪分割标签
去噪和再激活策略来改进多尺度注意图
具体贡献:
- 研究图像调整到不同的尺度时,大物体和小物体表现出互补的行为
- 利用融合多尺度注意图的自训练方法来增强模型挖掘语义特征
- 在PASCAL VOC 2012 val和测试集进行对比
二、联系工作
图像级WSSS以其高效率得到了广泛的研究
两阶段图像级WSSS遵循生成伪分割标签和训练全监督分割网络
最近的WSSS方法基于CAMs从图像和图像级标签中提取位置信息
cam只能捕捉到物体最具区别性的区域
造成这种现象的内在原因是分类和分割任务之间的差距。只有对分类至关重要的信息才能流向分类层
从cam中获得的伪分割标签往往是不准确的
强制网络更加关注非判别区:
- 判别区擦除
- 区域生长
引入了额外的监督信息:
- 显著性图
- 交叉图像
- 子类别
- 分布外数据
自监督学习在一些工作中也被用于提取信息,例如SEAM
RCA和PPC利用对比学习来确保共享相同标签的像素在特征空间中具有相似的表示
一些研究试图用Transformer代替CNN,并取得了可喜的结果
三、方法
整个框架
相应步骤:
- 使用现有的WSSS方法预训练学生分支
- 初始化教师分支
- 教师分支负责生成融合的多尺度注意图,然后通过去噪和重新激活策略对其进行细化
- 改进的多尺度注意图对学生分支进行训练
介绍了多尺度注意融合策略和反应性策略。随后,我们使用融合的多尺度注意图对模型进行训练
整体损失函数:
3.1 分类注意图
给定图像I和图像级标签y∈RK, 其中K是数据集中存在的类别数
我们可以从网络的最后一个卷积层获得类感知的注意图
从网络的最后一个卷积层获得类感知的注意图:
- M为空间大小为K × H × W的类意识注意图
- f(·)为主干
- ReLU(·)激活函数后,对注意图进行归一化处理
最后一个卷积层之后是一个全局平均池化(GAP)层,得到图像级预测
使用交叉熵损失函数训练分类器
一旦分类器训练得很好,我们就可以利用M来生成伪分割标签
P代表的是生成的伪标签
3.2 多尺度注意力融合策略
在自我训练之前,我们使用现有的带有图像级标签的WSSS技术对学生分支进行预训练
我们用预训练的模型初始化教师分支,该模型具有初步的分割能力
我们采用了EPS来进行相应的操作
首先将原始图像调节到3个不同的尺寸大小
可以得到3组 class-aware attention maps
同时考虑了大规模和小规模的转换,以充分利用互补信息
提出了一种涉及平均注意图的融合策略,这是WSSS在推理阶段常用的方法,来进行融合
由于注意图在不同尺度上的大小不同,我们在将它们加在一起之前将它们调整为与Mo相同的大小
注意力得分的范围限制在[0,1]
Mk的最大值对第k个通道进行归一化,记为max(Mk)
为了衡量F和Mo之间的差异,我们使用多尺度注意一致性损失Lmac
3.3 去噪和再激活策略
F仍然有一些缺陷,包括噪音和未激活区域
将图像级标签纳入信道间去噪。具体来说,如果类k不存在于y中,我们将F中相应通道的值设置为0
F可以捕获比Mo更完整的区域
引入了一个再激活策略来细化f。具体来说,我们首先将后台通道的值设置为阈值,然后应用公式来重新激活这些区域
四、实验设置
PASCAL VOC 2012数据集设置:
- 该数据集由20个语义类别和一个背景组成,
- 分别包含1,464、1,449和1,456张图像,分别用于训练集、验证集和测试集
- 我们使用了SBD增强训练集
- 提供了10,582张图像
- 方法的性能用平均相交-超并(mIoU)来评估
实验细节:
- ResNet38[27]作为骨干
- 使用EPS[3]对学生分支进行预训练
- 预训练模型对教师分支进行初始化
对于教师分支,我们以【0.5, 1, 1.5, 2】的尺度调整原始图像的大小,并应用翻转操作
在学生分支中:
- 批量大小为8
- 动量为0.9
- 权重衰减为5e-4的SGD
一旦我们的模型被训练,我们遵循在其他WSSS作品中概述的推理过程,使用Dense-CRF[28]生成伪分割标签
采用标准DenseCRF作为后处理步骤,以细化最终分割结果