[论文笔记]Coarse-to-fine Semantic Segmentation from Image-level Labels

Abstract

减轻人工标注的压力,本文提出一种仅含图像级标签的迭代的coarse-to-fine(由粗到细)的语义分割框架

  1. 首先通过CNN生成initial coarse mask
  2. 然后利用图模型对其进行增强,把增强后的coarse mask输入到一个全卷积网络中迭代优化

该框架不像之前的方法一样需要把图像中所有的类标签标记出来,而只需要一个标签,就可以完成图像中多类别的目标分割

Introduction

  1. 为降低像素级标注的压力,利用目标级的标注如边界框、简笔标注和点标注或者图像级的标注来训练语义分割网络
  2. 本文提出一种只利用图像级标签训练网络的语义分割框架,训练采用ImageNet数据集,而且ImageNet数据集中尽管图像中含多个目标,但往往图像类标签只有一个
  3. 框架流程
    (1) 利用学生网络生成coarse mask
    (2) 由于这些coarse masks十分粗糙并且其位置与目标位置不一致,因此利用图模型进行优化
    (3) 利用优化的mask、输入图像和类别标签去迭代训练全卷积分割网络
    对输入图像的预测分割mask优化优化过程示意图

Contribution

  • 提出一种新的仅依赖于图像级标签的语义分割框架
  • 利用无监督前景分割方法生成coarse mask并通过图模型进行优化,将优化后的mask以迭代方式训练分割网络
  • 提出的方法能够在训练图像仅含单类别标签的设定下完成图像多目标分割问题
  • 所提出的方法可以很容易扩展到图像前景目标分割的无监督任务中并取得较好的效果

Related Work

近年来,许多语义分割方法被相继提出,按照所使用的标注的水平,这些方法大致可分为3类:

  • 基于全监督的像素级标注的方法
  • 基于弱监督的目标级标注的方法(bounding boxes,spots,scribbles)
  • 基于弱监督的图像级标注的方法:对抗训练、通过网络抓取的视频信息、利用生成对抗网络、利用损失函数、扩张卷积等

当前通用的前景目标分割方法大致可分为3种:以先验知识为监督的联合分割方法、显著性预测方法和基于对象建议的方法

Proposed Approach

方法概述

框架示意图如下,主要包含三部分:生成coarse maskcoarse mask增强mask迭代优化

  • 训练一个8层的CNN生成initial coarse mask
  • 应用一个图模型基于目标先验提高initial coarse mask的质量
  • 迭代训练一个全卷积网络用于语义分割
    框架示意图

生成coarse mask

  1. 目的:生成没有类别标签的coarse mask
  2. 常用方法:VideoPCA、NLC、无监督前景分割方法及无监督目标分割方法等
  3. 本文采用的方法:基于文献[20]的学生网络来生成coarse mask。学生网络是一个在大规模视频帧上训练的8层CNN,比之前的其他测试方法快两个数量级,是一种无监督目标分割方法
    局限性:生成的coarse mask十分粗糙而且不精确
    解决方案:利用图模型对coarse mask进行优化

coarse mask增强

利用GrabCut对initial coarse mask进行优化

  • GrabCut是一种有效的基于graph cuts的交互式前景/背景分割方法,采用高斯混合模型来估计前景和背景的颜色分布。然后使用这些分布在像素标签(即前景或背景)上构造马尔可夫随机场。本文基于graph cut对coarse mask进行优化,以最小化能量函数,使得连通区域具有相同标签。重复两步过程直到收敛,得到增强的coarse mask。增强效果如图2所示
    图模型优化效果示意图

mask迭代优化

  1. 方案
    这里本文提出了一种递归语义分割网络,将图像类别标签和增强的coarse mask作为初始语义标签进行训练,得到像素级的语义分割模板。该网络在ImageNet数据集的子集上训练。
  2. 依据
    由于ImageNet数据集是为解决图像分类问题而设计的,而主对象通常占据图像中很大的空间,因此增强的粗糙掩模可以覆盖主对象的大部分。基于以上假设每个图像的类标签被分配给属于前景对象的所有像素,其余像素被设置为背景,由此得到的增强mask作为下一次训练的输入进行迭代。过程示意如图3所示
    迭代优化示意图
  3. 细节
    本文选择DeepLab作为语义分割网络。Deeplab利用空洞卷积扩大神经元的感受野,利用空洞空间金字塔池化(ASPP)从多个尺度观察目标,以及通过全连接CRF提高对目标边界的定位性能,是当前语义分割基准的最新水平。

Experiments

  • 训练数据集:从ImageNet选取20个类别的图像子集,这些类别与VOC2012数据集中类别相同并且不包含背景类
  • 验证数据集:PASCAL VOC2012数据集
  • 实验效果:
    预测分割优化过程示意图
  • mIoU:PASCAL VOC2012数据集 test 62.8
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值