MDC论文笔记(Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation)
之前写的一些笔记,可能有些观点参考过其他博主,欢迎认领,侵删,转载请注明出处,谢谢
Abstract
- 研究背景
弱监督语义分割同全监督在性能上的差距主要来源于难以生成致密的目标定位映射的局限性,因此该文章对扩张卷积(Dilated Convolution)的应用进行了重新审视 - 发现
变化的扩张率可有效扩大卷积核的感受野并且能够将周围的判别信息传递到non-discriminative的目标区域 - 方案
设计一个通用的分类网络,利用不同的扩张率生成可靠的目标定位映射,克服弱监督分割的限制因素 - 应用
尽管提出的方案比较简单,但是在弱监督(仅含图像级标签)和半监督学习方式下均取得较好的效果
Introduction
Challenge
如何精确定位目标区域获得优质的object cues
Top-down approaches
很多学者提出自上而下的方法,利用分类网络生成类别明确的注意力线索用于目标定位。然而分类网络直接生成的注意力仅能识别到比较小和最具判别力的区域,比如类激活映射(Class Activation Mapping,CAM)
图1(a):本文所提方案,在分类网络中使用不同扩张率的卷积块
图1(b):生成的目标定位映射与CAM的比较
本文提出的方法
- 由于扩张卷积可以扩大感受野,进而将发现的目标区域信息传递到临近的区域,生成致密的目标定位
- 当扩张率过大时会导致true negative区域被错误地突出显示,本文提出采用一种简单有效的抗噪声融合策略来解决这个问题
- 利用所提方法生成定位映射去训练分割网络
Contribution
- 重新审视扩张卷积并发现它可以很好地满足生成致密的定位映射的要求,这对于弱监督和半监督学习来说是一种新的尝试
- 提出一种简单有效的方法利用扩张卷积向临近目标区域传递判别信息
- 可用于弱监督和半监督学习,均取得了较好的效果
Related Work
- 弱标注图像分割:边界框标注; 简笔标注; 实例点标注
- 图像级标注的语义分割
(1) 多示例学习Multiple Instance Learning
(2) 基于期望最大值算法(Expectation-Maximization)
(3) 基于建议的方法:利用MCG生成的建议或者采用其他的网络生成建议会浪费大量的时间或导致属性较强的监督学习(MCG利用像素级标注图像样本进行训练)
(4) STC大大提高的分割性能,但其主要胜在依赖于大量简单图像样本的训练
(5) SEC综合了3个损失函数,但是它仅能提供小而稀疏的种子,这对于学习可靠的分割模型是不够的
(6) AE-PSL方法尽管获得了较好的分割性能,但是该方法需要重复地去训练多个分类网络,而本文只需训练一个分类网络即可生成完整的目标定位区域
Proposed Method
Dilated Convolution
如下图所示,扩张卷积可通过扩大卷积核的感受野有效综合目标区域的上下文信息
图2:dilation是如何使信息迁移的
Multi-dilated Convolution for Localization
- 提出Multi-dilated Convolution(MDC)模块来对分类网络进行增强,生成致密的目标定位映射
- 文章实现了两种卷积运算:
(1) 利用标准卷积核(d=1)获得精确的目标定位映射,但发现的区域并不完整
(2) 利用变化的扩张率扩大卷积核的感受野(d=3,6,9,…),使得发现区域的判别信息向邻近的区域迁移,以发现更加完整的目标区域 - 存在问题及解决方案
(1) 当卷积核的扩张率过大时,生成的目标定位映射同常会引入不相关的区域(比如true negative regions)。因此我们在本文中采用了较小的扩张率(d=3,6,9)
(2) 然而采取了较小的扩张率后,仍会引入一些不相关的区域
(3) 为解决(2)的问题,文章提出一种抗噪声融合策略。 文中提到,true positive区域通常可以通过两个或多个定位图来区分,而true negative区域则在不同的扩张下可表现出多样性。文章对不同卷积块(d=3,6,9)生成的定位图进行均值运算。然后将该均值映射添加到标准卷积块(d=1)的定位图中,生成最终的定位图,这样同时也不会丢失标准卷积块发现的精确的目标区域。
(4) 利用显著性检测方法生成显著性映射图,对低值区域标记为背景
Experiments
- PASCAL VOC 2012数据集用于验证
- CRF用于后处理
- mIoU VOC2012数据集 test 60.8
- failure cases: 当d=1时,具有大尺度和判别区域的目标只在一端突出显示(从一端到另一端信息很难通过较小的扩张率进行传递)。可能AE-PSL提出的对抗擦除方法可以解决这个问题