以往的弱监督语义分割都是通过利通类激活图(Class Activation Map,CAM)来生成伪标签。然而CAM只是从少量区域中发现种子,不足以成为语义分割的伪掩码。作者就将图片分为互补的两部分,两部分分别得到的CAM所蕴含的信息要大于等于原有的整幅图像直接生成的CAM。因此,通过缩小这一堆互补图像生成的CAM和原图像直接生成的CAM,即可获得具有更多关于目标种子的信息的CAM。为了达到这一目的,作者提出了一个三元组网络(CPN)和三个正则化函数,并取得了良好的结果。为了进一步提高CAMs的质量,作者提出了一个像素-区域相关模块(Pixel-Region Correlation Module,PRCM),通过利用特征映射和CAMs之间的对象-区域关系来增强上下文信息。
三个CPN即为三元组网络,PCM和PRCM的结构和的求值方式如下所示
X为分类网络中一些特征的聚合,Y为未处理的CAM,g实质为1X1卷积,各个横线上的NxM均代表传递的矩阵的形状,为了实现这一点,需要根据示意图进行flatten,resize和转置操作。
最后,模型综合三个图像的原始CAM,即Y和调整过的CAM,即,确定最终的分割结果,作为伪掩码