本文是利用图像级(image-level) 标签进行弱监督 语义分割的方法。作者认为新近的弱监督语义分割方法虽然提高了分割精度,但是是以模型的复杂度和多阶段(multi-stage)训练为代价的,因此提出单阶段(single-stage) 的弱监督方法,在保证分割精度的前提下降低了算法的复杂度。
概要
弱监督语义分割数据集的注释包括边界框(bounding boxe)、涂鸦(scribble)和点等,而这些注释都提供了位置信息。与之相比,图像级标签仅提供了图像的类别信息而不包含位置信息,因此分割难度更高。
绝大多数弱监督语义分割方法基于类激活图(CAM)进行。但作者认为CAM具有先天的局限性:(1)语义的局部不一致;(2)语义覆盖不完整;(3)语义不准确。也据此作者提出了良好的语义分割的弱监督方法应该具有的三个属性:
- 局部一致性(local consistency)。具有相似外观的相邻像素点应有相同的标签。
- 语义准确性(semantic fidelity)。模型应能给予准确的分类。
- 完整性(completeness)。模型应能标识图像中归属某类的所有像素点。
据此作者提出不依赖显著性估计(saliency estimation)和额外数据的单阶段弱监督语义分割模型,主要包括利用归一化的全局加权池化nGWP(normalised Global Weighted Pooling) 计算分类分数、利用PAMR(Pixel-Adaptive Mask Refinement) 细化mask进行自监督训练,同时引入SG(Stochastic Gate) 混合不同感受野大小的特征(不同深度的特征)以消除后续自监督中误差的叠加效应。
模型
1. 类分数(Classification scores)
本网络的类分数的提取采取了和以往基于CAM的算法不同的方式。传统方法对提取的特征进行全局平均池化(GAP)后,再接一个全连接层得到输出层,最后将训练得到的全连接层权重与特征图相乘从而得到CAM。作者认为平均池化使特征图中的所有像素点都参与了类的识别,并不利于小物体的分割,同时GAP并未对分割任务进行像素级编码,因此CAM-GAP的结构并不适用于分割任务。
在本文提出的nGWP结构中,模型首先使用1×1卷积通过特征预测分数图(Score Maps),然后通过softmax得到置信图Mask。作者通过Score Maps和Mask共同生成类分数。类分数的预测主要由两部分nGWP和focal penalty构成。第一部分为nGWP,公式如下:
ϵ
\epsilon
ϵ的作用包括避免分母过小趋近于0时导致函数的不连续从而影响训练的稳定性,以及在面对负类时使ynGWP更小以提升focal penalty的权重从而提高模型对负类的预测能力。
同时由于nGWP的变化是与mask的大小不相关的,因此不能避免由于mask过小导致的分割完整性(completeness)缺失的情况。于是作者提出一个惩罚项focal penalty以鼓励分割面积更大的mask,并参考focal loss,在惩罚项的计算中引入了对分割难度的考量,即面积更小的mask将得到更大的关注度。公式如下,λ的作用为控制惩罚的幅度:
最终的类分数为:
作者选择MultiLabelSoftMarginLoss作为损失函数,其中z为ground-truth标签:
2. PAMR(Pixel-adaptive mask refinement)
为了实现分割的局部一致性(local consistency) ,作者提出PAMR以细化上一模块中粗糙的Mask。PAMR利用Mask在原始图像上对应像素点邻域的特性来更新Mask像素点的标签。PAMR采用多次迭代的方式进行Mask细化,第t代Mask的计算公式如下:
其中的α作者定义为像素级亲和力(pixel-level affinity),反应图像上某一像素点与其邻域上的像素点之间的亲和度,计算公式如下:
PAMR模块的参数在训练时并不参与优化过程。在实践中,作者取不同膨胀率的3×3卷积核组合起来提取像素点的邻域。PAMR模块产生的细化mask将对网络输出的粗糙mask进行自监督,使用经典的交叉熵计算损失值(包含对每个类的损失进行归一化)。
3. 随机门(Stochastic gate)
由于自监督模块并不使用ground-truth进行训练,因此网络可能对一部分误差也进行学习,即产生误差的复合效应,因此应当对网络提取的深层特征进行加强。作者引入随机门作为正则化方法,通过随机交换的方式使深层特征共享来自浅层特征的信息,同时保证输出的新特征与深层特征具有相同的均值。公式如下,其中
r
r
r服从参数为
ψ
\psi
ψ的伯努利分布,
ψ
∈
[
0
,
1
]
\psi\in[0,1]
ψ∈[0,1] 用于控制深浅特征在输出中所占的比例:
推断时不再进行随机处理,直接按比例计算:
除此之外,作者为了丰富浅层特征的语义信息,提出GCI(Global Cue Injection)将深层特征的信息注入浅层特征中。深层特征经过1×1卷积并用全局最大池化GMP提取得到两个向量z(a)和b(a)。作者在此处套用AdIN(Adaptive Instance Normalisation)的公式进行计算,使浅层特征的像素共享深层特征的信息。加强的浅层特征的计算:
实验
消融实验
Focal mask penalty:
PAMR:
Stochastic Gate:
与state of art的对比实验
对比图