DFPN论文笔记:Coarse-to-fine Semantic Segmentation from Image-level Labels
Abstract
为减轻人工标注的压力,本文提出一种仅含图像级标签的迭代的coarse-to-fine(由粗到细)的语义分割框架
- 首先通过CNN生成initial coarse mask
- 然后利用图模型对其进行增强,把增强后的coarse mask输入到一个全卷积网络中迭代优化
该框架不像之前的方法一样需要把图像中所有的类标签标记出来,而只需要一个标签,就可以完成图像中多类别的目标分割
Introduction
- 为降低像素级标注的压力,利用目标级的标注如边界框、简笔标注和点标注或者图像级的标注来训练语义分割网络
- 本文提出一种只利用图像级标签训练网络的语义分割框架,训练采用ImageNet数据集,而且ImageNet数据集中尽管图像中含多个目标,但往往图像类标签只有一个
- 框架流程
(1) 利用学生网络生成coarse mask
(2) 由于这些coarse masks十分粗糙并且其位置与目标位置不一致,因此利用图模型进行优化
(3) 利用优化的mask、输入图像和类别标签去迭代训练全卷积分割网络
对输入图像的预测分割mask优化
Contribution
- 提出一种新的仅依赖于图像级标签的语义分割框架
- 利用无监督前景分割方法生成coarse mask并通过图模型进行优化,将优化后的mask以迭代方式训练分割网络
- 提出的方法能够在训练图像仅含单类别标签的设定下完成图像多目标分割问题
- 所提出的方法可以很容易扩展到图像前景目标分割的无监督任务中并取得较好的效果
Related Work
近年来,许多语义分割方法被相继提出,按照所使用的标注的水平,这些方法大致可分为3类:
- 基于全监督的像素级标注的方法
- 基于弱监督的目标级标注的方法(bounding boxes,spots,scribbles)
- 基于弱监督的图像级标注的方法:对抗训练、通过网络抓取的视频信息、利用生成对抗网络、利用损失函数、扩张卷积等
当前通用的前景目标分割方法大致可分为3种:以先验知识为监督的联合分割方法、显著性预测方法和基于对象建议的方法
Proposed Approach
方法概述
框架示意图如下,主要包含三部分:生成coarse mask,coarse mask增强和mask迭代优化。
- 训练一个8层的CNN生成initial coarse mask
- 应用一个图模型基于目标先验提高initial coarse mask的质量
- 迭代训练一个全卷积网络用于语义分割
生成coarse mask
- 目的:生成没有类别标签的coarse mask
- 常用方法:VideoPCA、NLC、无监督前景分割方法及无监督目标分割方法等
- 本文采用的方法:基于文献[20]的学生网络来生成coarse mask。学生网络是一个在大规模视频帧上训练的8层CNN,比之前的其他测试方法快两个数量级,是一种无监督目标分割方法
局限性:生成的coarse mask十分粗糙而且不精确
解决方案:利用图模型对coarse mask进行优化
coarse mask增强
利用GrabCut对initial coarse mask进行优化
- GrabCut是一种有效的基于graph cuts的交互式前景/背景分割方法,采用高斯混合模型来估计前景和背景的颜色分布。然后使用这些分布在像素标签(即前景或背景)上构造马尔可夫随机场。本文基于graph cut对coarse mask进行优化,以最小化能量函数,使得连通区域具有相同标签。重复两步过程直到收敛,得到增强的coarse mask。增强效果如图2所示
mask迭代优化
- 方案
这里本文提出了一种递归语义分割网络,将图像类别标签和增强的coarse mask作为初始语义标签进行训练,得到像素级的语义分割模板。该网络在ImageNet数据集的子集上训练。 - 依据
由于ImageNet数据集是为解决图像分类问题而设计的,而主对象通常占据图像中很大的空间,因此增强的粗糙掩模可以覆盖主对象的大部分。基于以上假设,每个图像的类标签被分配给属于前景对象的所有像素,其余像素被设置为背景,由此得到的增强mask作为下一次训练的输入进行迭代。过程示意如图3所示
- 细节
本文选择DeepLab作为语义分割网络。Deeplab利用空洞卷积扩大神经元的感受野,利用空洞空间金字塔池化(ASPP)从多个尺度观察目标,以及通过全连接CRF提高对目标边界的定位性能,是当前语义分割基准的最新水平。
Experiments
- 训练数据集:从ImageNet选取20个类别的图像子集,这些类别与VOC2012数据集中类别相同并且不包含背景类
- 验证数据集:PASCAL VOC2012数据集
- 实验效果:
- mIoU:PASCAL VOC2012数据集 test 62.8