【论文阅读】RRM:一个端到端的弱监督语义分割方法
Reliability Does Matter: An End-to-End Weakly Supervised Semantic Segmentation Approach
弱监督语义分割是一项具有挑战性的任务,因为它只需要图像级信息作为训练的监督
像素级预测用于测试
最先进的方法提出采用两步解决方案
- 学习生成伪像素级掩码,
- 使用fcn训练带有伪掩码的语义分割网络
生产高质量的伪掩模时采用各种技巧
利用图像级标签来生成可靠的像素级注释,并设计了一个完全端到端网络来学习预测分割图
图像分类分支为标注的类别生成类激活图
类别被进一步修剪成有效但微小的对象/背景区域
一、介绍
弱监督语义分割提供了比采用像素级掩码的完全监督语义分割更简单的方法
因为语义标签和像素之间没有直接的映射
一步法分割精度往往完全低于完全监督
为了产生高质量的伪掩码
例如以离线方式从对象建议中引入额外的对象/背景线索
一个是使用图像级注释生成伪像素级掩码,另一个是生成语义分割结果
通过增加一个额外的CRF操作,这些区域可以进一步修剪成更可靠的区域
设计了一种正则化损失,称为密集能量损失,它与逐像素的交叉熵损失相配合来优化训练过程
RRM在Pascal VOC val和测试集上分别达到了62.6和62.9的mIoU分数
二、联系工作
提出了第一个用于语义分割的全卷积网络FCN
WSSS:
- 是基于类激活图(CAM) (Zhou et al. 2016),即从图像级注释生成初始对象种子或区域
- 初始对象种子或区域被转换成伪标签来训练语义分割模型
- 使用了为seed growing的传统算法来迭代扩展种子区域。
使用各种各样的技术产生了高质量的伪掩码
三、方法
RRM可以分为两个并行分支:
- 分类分支
- 语义分割分支
训练过程中同时对整个网络进行更新
总体框架如下
分类分支用于生成可靠的像素级注释。原始cam将被处理以产生可靠但微小的区域
最终保持可靠的区域被视为标记区域,而其他区域被视为未标记区域
语义分割分支用于预测像素级标签
分支将交叉熵损失与新设计的密集能量损失相结合,提出了一种新的联合损失函数
分类分支:生成可靠区域标签
高质量的像素级标注直接影响我们最终的语义分割性能
原始CAMs可以突出显示物体最具区别性的区域
得到原始CAM区域后,后处理如密集的CRF
在最后三层中添加了展开卷积。我们的网络设置的细节报告在我们的实验部分。
使用多尺度原始图像有利于生成稳定的CAM
用于区别背景和前景,255则代表还没有确实分的类别
原始CAM标签包含大多数前景标签,但引入了一些背景像素作为前景
最后将像素标签输入到语义分割分支
可以在保留可靠区域的同时去除一些错误的像素级标签,这在物体边界处表现得尤为明显
我们的分割分支与分类分支共享同一骨干网,只需要可靠且微小的像素级标签
我们设计了一种新的浅损失,称为密集能量损失,同时考虑了RGB颜色和空间位置。
Loss = Lce+Lenergy
四、实验结果
RRM在PASCAL VOC 2012 及其增强数据上进行了训练和验证
细节:
- 骨干网是一个具有38个卷积层的ResNet模型
- 并对最后三个resnet块进行扩展卷积(resnet块是一组具有相同输出大小的剩余单元)
- 训练学习率为0.001
- 权值衰减为5e-4
- 训练图像以从(0.7,1.3)随机抽样的比率调整大小,随机翻转
- 裁剪为321*321的大小
因为我们现在做的工作是遥感图像的语义分割,一张切割好的256*256的图像下,往往包含多个类别,以往的自然图像分割loss的构建划分了前景loss和背景loss,但RS图像单纯进行通道最大值提取来划分类别,用生成的伪标签和上采样得到的特征图做交叉熵loss