来源:CVPR 2020
论文题目:Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
论文地址: https:// arxiv.org/abs/2004.0458 1
本文作者提出了一个Self-supervised Equivariant Attention Mechanism (SEAM) , SEAM对来自不同变换图像的 Class Activation Map (CAM)应用一致性正则化,为网络学习提供自监督。为了进一步提高网络预测的一致性,SEAM引入了像素相关模块Pixel Correlation Module (PCM),该模块为每个像素捕获上下文纹理信息对原始的CAM进行修改。
自监督学习方法不使用大量的手工标签来训练网络,而是设计一个前置任务(pretext tasks)来生成标签,例如:相对位置预测,空间变换预测,图像修复,图像着色等。考虑到全监督语义分割和弱监督语义分割之间存在较大的监督差距,文中将寻求额外的监督来缩小这一差距。此外,由于图像级分类标签(ImageNet)对语义网络学习来说太弱,不能很好地拟合目标边界,因此本文呢设计一个前置任务,在仅使用图像级标的情况下利用理想分割函数的等方差为网络学习提供额外的自我监督。(通俗来说就是ImageNet分类任务上预训练的参数难以监督一个语义分割网络)。
①Equivariant Regularization
上述
②Pixel Correlation Module
同时文中引入第二种约束进行自监督,通过PCM(如图)利用像素间的相似度去重建最原始的类激活图。PCM通过整合每个像素的底层特征来进一步利用上下文信息来细化原始CAM。
损失函数
分类标签为
Equivariant Regularization损失,
此外为了进一步提高了网络等方差学习的能力,来自浅层的CAM和特征被输入到PCM进行细化。然后作者实验发现PCM的输出映射很快地陷入所有像素所在的局部最小值(整幅图像被预测为同一类别)。因此,作者使用PCM输出由孪生网络另一个分支上的原始CAM进行规范化,以避免在PCM细化过程中发生CAM退化。
最终的语义分割损失如下: