STC论文笔记(STC: A Simple to Complex Framework for Weakly-supervised Semantic Segmentation)
之前写的一些笔记,可能有些观点参考过其他博主,欢迎认领,侵删,转载请注明出处,谢谢
Abstract
- 文章提出一个Simple to Complex(STC)框架,仅利用图像级标签学习DCNN实现语义分割
- 过程:首先通过背景简单的单目标图像数据生成显著性映射图,训练初始分割网络Initial-DCNN,然后利用Initial-DCNN生成的映射图和图像的类别标注去训练Enhanced-DCNN,最后将Enhanced-DCNN对复杂图像(多类别或复杂背景)数据生成的预测分割mask用于训练分割网络Powerful-DCNN
- 细节
(1) Initial-DCNN的训练通过使用已有的自下而上的显著性检测方法生成映射图,这里不需要监督信息
(2) 该方法利用了从Fliker.com中检索的40K简单图像数据用于训练Initial-DCNN,以及10K PASCAL VOC数据集中的复杂图像
Introduction
挑战性问题
语义分割问题本身存在一定的复杂性,比如
- high intra-class variation(类内差异性)
- different interaction between objects(类间重叠或共现情况:比如船和水,火车和轨道)
- 针对仅含图像级标签的数据,采用多示例学习往往会采用很复杂的损失函数
显著性目标检测方法
特点
- 不需要high-level的监督信息
- 当输入图像背景复杂且含有多个目标时性能较差,但当背景干净且单目标时,检测效果往往令人满意
文章切入点
通过自动检索大量的网络图像,并对较简单的图像进行显著性检测,可以以较低的代价获得大量的显著性映射,用于训练语义分割DCNN
本文提出的Simple to Complex框架
- 利用语义标签查询图像的宿主网站,如Fliker.com,对检索到的简单图像通过DFRI进行显著性检测生成显著性映射,用于训练Initial-DCNN
- 每个像素根据生成的显著性映射中的预测概率被分成前景类和背景类,利用多标签交叉熵损失函数为每个前景像素分配语义标签
- 将Initial-DCNN生成的分割预测mask以有监督方式训练Enhanced-DCNN,然后再利用Enhanced-DCNN对复杂图像生成的预测分割mask去训练更强的Powerful-DCNN
Contribution
- STC framework
- 多标签交叉熵损失函数
Related Work
弱监督语义分割
为缓解语义分割人物的标注负担,有学者对含边界框标注的图像分割进行研究,但为了进一步减轻标注的压力,逐渐出现了一些仅利用图像级标签实现语义分割的工作
- 多示例学习
- 基于期望最大值算法(Expectation Maximization)的训练过程
- Constrained CNN
- 利用object size作为另外的监督
- SEC使用三个损失函数
- 利用前景/背景的先验知识
自步学习:每次迭代自动选择训练样本
文章提出的方法同Self-paced Learning具有一定的相关性
- 类似:将从简单图像中学习的模型应用到复杂图像中去
- 不同:Self-paced Learning每次迭代都会自动选择样本,而STC框架根据定义的简单图像和复杂图像来选取样本
Proposed Method
框架

过程
- Initial-DCNN
(1) 依据: 对于生成的每张图像的显著性映射,较大的像素值意味着该像素更有可能属于前景
(2) 方法:利用显著性检测方法DRFI来提取简单图像的前景并与其语义标签相对应,然后利用生成的显著性映射图通过多标签交叉熵损失函数训练分割网络 - Enhanced-DCNN
(1) 思想:利用Initial-DCNN生成的分割mask训练模型E-DCNN,提高网络的分割能力,优化每个目标的分割mask
(2) 方法:利用单标签交叉熵损失函数进行训练,分别对每一个类别的分割预测进行优化(PS:E-DCNN的训练数据是简单图像样本,但预测分割能力在I-DCNN基础上得到增强,因此可进一步去对复杂图像进行预测分割) - Powerful-DCNN:将Enhanced-DCNN在复杂图像生成的预测分割mask作为Powerful-DCNN的ground truth来训练P-DCNN
损失函数
- 由于全卷积网络中的交叉熵损失是像素级别的,每个像素只能分配给一个类别,因此E-DCNN和P-DCNN的训练采用单标签交叉熵损失。
- I-DCNN采用类不可知的显著性检测方法,在训练过程中每个像素与两个标签相关联(包含20个类别的前景标签和背景标签),采用多标签的交叉熵损失
Experiments
- 数据集:创建新的数据集Flickr-Clean,用于训练I-DCNN,并将PASCAL VOC 2012用于验证
- DenseCRF做后处理
- mIoU VOC2012数据集 test 51.2
比较
- SEC的性能最优,可能得益于其基于CRF的constrain-to-boundary损失函数的优化
- 在现有的工作中,该论文体现出的分割性能是有竞争力的
Failure cases
- 类间的相似性,如椅子和沙发在外观上的相似性混淆了模型,得到了错误的分类
- 大目标问题,当目标在图像中占据较大空间时,容易被识别为背景

被折叠的 条评论
为什么被折叠?



