AE-PSL是文章所提出的两种主要方法,Adversarial Erasing和Prohibitive Segmentation Learning的简称,这两种方法共同组成了作者所提出的基于对抗擦除、在线辅助学习的Image-level弱监督语义分割模型。
文章的motivation仍然是解决CAM网络仅对小面积且稀疏的显著区域产生响应的问题。作者注意到,既然CAM网络挖掘物体最显著区域的能力那么强,那么如果采用迭代的思想,将CAM网络每一次挖掘到的图片最显著区域擦除掉,再将擦除后的图片输入CAM网络,那么为了保持分类网络的准确性能,CAM网络将再次挖掘到其他的物体显著区域。作者认为,迭代地重复上述对抗擦除-显著区域挖掘的操作直至CAM网络的分类损失不再很好地收敛,合并历次的擦除区域将便能获得稠密且完整的像素级物体分割标签。
原文图2即为AE方法的工作原理框图。可以看到,AE方法每一轮都以对抗擦除显著区域后的图片作为训练集,训练CAM的分类性能直至收敛,并获取当前轮次的物体显著区域。随着迭代轮次的增加,已擦除的显著区域逐渐充满了目标物体的整个区域范围。此外,作者采用AE-CAM的方法挖掘图片的前景物体区域,而采用经典的目标显著性检测网络DRFI挖掘图片的背景物体区域,将前后景区域归并后得到最终的监督训练标签。如原文图3(a)所示。
正如图3(a)中标签图片的蓝色区域所示,有些像素点既没有被CAM识别为前景物体也没有被DRFI识别为背景物体,这些没有被赋予语义标签的像素点将在训练时被忽略掉(不计算损失)。然而,这些被忽略掉的像素点往往会带有目标物体相关或背景物体相关的信息;此外,CAM网络挖掘物体边界的局限性也会引入相当程度的噪声,所以仅仅使用AE方法所产生的分割标签来训练全监督分割网络显然是不足够。实际上,作者在训练分割网络时,还通过PSL方法引入额外的辅助监督信息来提高网络的性能。如图3(b)所示,用训练好的Classification Network产生当前图片的分类置信度,用每个类的分类置信度来加权Segmentation Network产生的每个类的Segmentation Score Map,以此来抑制置信度低的类别所引入的噪声。一个细节是,置信度低于预设阈值的类别所作出的贡献将被完全关闭,即将加权系数设置为0。在AE生成标签与辅助标签的同时监督下,分割网络所受到的监督将极大增强,从而提升弱监督分割网络的最终性能。在推理阶段,PSL模块同时起到anti-noise label refinement的作用,相当于对分割网络的原始输出做了抗噪声与精细化的后端处理,进一步提升模型最终性能。
在PASCAL VOC 2012 val set和test set上,AE-PSL模型最终报道的性能分别为55.0%和55.7%mIOU,超越了同期所有的图片级弱监督分割网络,成为新的SOTA。