[论文笔记]Coarse-to-fine Semantic Segmentation from Image-level Labels

最新推荐文章于 2023-11-13 17:45:55 发布

最新推荐文章于 2023-11-13 17:45:55 发布

阅读量1.5k

点赞数 1

分类专栏：弱监督语义分割文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/qq_36686169/article/details/106294999

版权

7 篇文章 2 订阅

订阅专栏

Abstract

为减轻人工标注的压力，本文提出一种仅含图像级标签的迭代的coarse-to-fine(由粗到细)的语义分割框架

该框架不像之前的方法一样需要把图像中所有的类标签标记出来，而只需要一个标签，就可以完成图像中多类别的目标分割

为降低像素级标注的压力，利用目标级的标注如边界框、简笔标注和点标注或者图像级的标注来训练语义分割网络
本文提出一种只利用图像级标签训练网络的语义分割框架，训练采用ImageNet数据集，而且ImageNet数据集中尽管图像中含多个目标，但往往图像类标签只有一个
框架流程
(1) 利用学生网络生成coarse mask
(2) 由于这些coarse masks十分粗糙并且其位置与目标位置不一致，因此利用图模型进行优化
(3) 利用优化的mask、输入图像和类别标签去迭代训练全卷积分割网络
对输入图像的预测分割mask优化

近年来，许多语义分割方法被相继提出，按照所使用的标注的水平，这些方法大致可分为3类：

当前通用的前景目标分割方法大致可分为3种：以先验知识为监督的联合分割方法、显著性预测方法和基于对象建议的方法

框架示意图如下，主要包含三部分：生成coarse mask，coarse mask增强和mask迭代优化。

目的：生成没有类别标签的coarse mask
常用方法：VideoPCA、NLC、无监督前景分割方法及无监督目标分割方法等
本文采用的方法：基于文献[20]的学生网络来生成coarse mask。学生网络是一个在大规模视频帧上训练的8层CNN，比之前的其他测试方法快两个数量级，是一种无监督目标分割方法
局限性：生成的coarse mask十分粗糙而且不精确
解决方案：利用图模型对coarse mask进行优化

利用GrabCut对initial coarse mask进行优化

GrabCut是一种有效的基于graph cuts的交互式前景/背景分割方法，采用高斯混合模型来估计前景和背景的颜色分布。然后使用这些分布在像素标签（即前景或背景）上构造马尔可夫随机场。本文基于graph cut对coarse mask进行优化，以最小化能量函数，使得连通区域具有相同标签。重复两步过程直到收敛，得到增强的coarse mask。增强效果如图2所示

方案
这里本文提出了一种递归语义分割网络，将图像类别标签和增强的coarse mask作为初始语义标签进行训练，得到像素级的语义分割模板。该网络在ImageNet数据集的子集上训练。
依据
由于ImageNet数据集是为解决图像分类问题而设计的，而主对象通常占据图像中很大的空间，因此增强的粗糙掩模可以覆盖主对象的大部分。基于以上假设，每个图像的类标签被分配给属于前景对象的所有像素，其余像素被设置为背景，由此得到的增强mask作为下一次训练的输入进行迭代。过程示意如图3所示
细节
本文选择DeepLab作为语义分割网络。Deeplab利用空洞卷积扩大神经元的感受野，利用空洞空间金字塔池化（ASPP）从多个尺度观察目标，以及通过全连接CRF提高对目标边界的定位性能，是当前语义分割基准的最新水平。

关注