【论文笔记】Coarse-to-Fine Semantic Segmentation From Image-Level Labels

最新推荐文章于 2023-07-06 14:57:26 发布

浪子私房菜

最新推荐文章于 2023-07-06 14:57:26 发布

阅读量1.6k

点赞数 2

分类专栏：语义分割文章标签：神经网络算法

本文链接：https://blog.csdn.net/niuxuerui11/article/details/114285282

版权

语义分割专栏收录该内容

29 篇文章 6 订阅

订阅专栏

1、摘要

基于深度卷积神经网络的语义分割通常需要很大成本的注释来进行训练，以此来活得很好的性能。在这篇文章中，研究人员使用对象级标签或者图像级标签进行标注。文中提出了一种新的递归由粗到细的语义分割框架，该框架仅基于图像级别的类别标签。首先由基于卷积神经网络的无监督前景分割模型生成初始掩码，然后由图模型进行增强。增强粗掩码被馈送到一个全卷积神经网络中，递归的进行细化。

现有的基于图像级别标签的语义分割需要对图像中的每个类别进行标注，但是我们的框架只需要对一副图像进行标签一个，并且可以处理包含多个类别的图像。旨在ImageNet数据集上进行训练，我们的框架可以和其他基于图像级别的标签的最先进的语义分割方法实现类似的性能。

最后，该框架可以很容易的扩展到对象分割任务中，并在Internet对象数据集上与最先进的监督方法具有相当的性能。

2、主要贡献

1、提出了一种新的弱监督框架用于语义分割，以来与图像级别的标签。
2、通过训练只有一个类别标签的图像，可以自动学习包含多个类别对象的图像生成最终的像素级语义精细掩码。
3、所提出的框架可以跨数据集推广。
4、框架可以很容易的扩展到图像的前景对象分割。

3、本文方法

如下图所示，该框架包含三个组件：粗掩码生成，掩码增强和递归掩码细化。首先，使用经过训练的8层卷积神经网络生成初始粗掩码。其次利用图模型增强来提高基于对象先验的初始粗掩码。最后，这些增强的粗掩码被馈送到全卷积神经网络中。增强的mask和输入图像和其类别标签一起被用来递归的训练一个用于语义分割的全卷积网络。
在这里插入图片描述
3.1 Coarse Mask Generation（粗掩码生成）

论文中的框架是一个基于CNN的网络，使用数百万个未标记的图像进行训练，并在无监督的对象分割中达到SOTA的水平。此外，8层的CNN训练student网络比以前的测试方法快两个数量级。粗掩码可以通过网在网络上利用标准的前馈处理来获得。因此，使用学生网络在我们的框架生成粗掩码。

总体架构：

在这里插入图片描述
我们发现，通过在最后一层加入resized之后的原始输入图片和中间特征，可以增加性能。
student net 结构如下图所示：

在这里插入图片描述

通过上图我们可以看到，生成的掩码非常嘈杂和不准确，通常由很多洞，mask的位置和图像的位置不一致。因此采用图模型对粗掩码进行增强，训练语义分割网络。

3.2 Coarse Mask Enhancement（粗掩码增强）
粗掩码增强这里使用grabCut方法。
具体步骤如下
1：长方形内的pixel属于前景，长方形外的pixel属于后景，用这两组去train背景GMM和前景GMM（GMM指的是高斯混合模型）
2：计算图像中的每一个像素属于前景或者背景的概率，进而计算出能量函数E中的Data项，Smoothness项的计算方法和grabCut方法一样。
3：通过最优化能量函数得到图像的一个分割。
4：用分割中的前景和背景去训练前景GMM和背景GMM。
5：重复3，4，5 步骤，直到分割结果收敛。

以上步骤可以看出grabCut是循环执行的，目的是为了EM。因为用户提供的长方形内部也有部分背景像素，所以这种的种子是不完全正确的。好在GMM并不要求所有的训练数据都是正确的。也可以通过EM步骤使得最终的结果正确。

3.3 Recursive Msk Refinement (递归掩码细化)

算法的执行流程如下图所示：

在这里插入图片描述
通过图像类别标签和被增强的掩码结合作为初始语义标签，得到用于训练的初始的像素级语义分割掩码。本文采用的数据集是ImageNet数据集的子集。每个图像的类别标签被分配到属于前景对象的像素，其余的像素被设置为背景。实现过程如下图所示：

在这里插入图片描述
这里我们选择DeepLab作为语义分割网络，在于它的实践价值和有限性。通过使用空洞卷积增大感受野，使用ASPP可以接受不同尺度大小的输入，利用CRF进行后处理来提高对象边界的定位能力。在第一轮训练结束，我们可以得到一个可以应用于任何图像的语义分割模型进行预测。由于mask质量很低，因此我们递归的训练网络，通过上一轮掩码作为当前轮的输入掩码，来继续细化语义掩码。这个过程重复几次，直到网络收敛。

当训练完成后，该网络可以分类出图像中的每个类别。

3.4 模型参数
算法一说明了整个训练过程，包括粗掩码生成，粗掩码增强和递归细化掩码。

3.5 将Proposed框架扩展到前景细分

在空洞卷积和ASPP的启发下，本文提出了DFPN架构，如下图所示：

在这里插入图片描述
除了为三个分支增大感受野外，所提出的DFPN具有和FPN相同的结构，每个分支包括不同扩张率的空洞卷积核，最后三个分支的结果被聚合在一起进行预测。

浪子私房菜

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】Coarse-to-Fine Semantic Segmentation From Image-Level Labels

1、摘要基于深度卷积神经网络的语义分割通常需要很大成本的注释来进行训练，以此来活得很好的性能。在这篇文章中，研究人员使用对象级标签或者图像级标签进行标注。文中提出了一种新的递归由粗到细的语义分割框架，该框架仅基于图像级别的类别标签。首先由基于卷积神经网络的无监督前景分割模型生成初始掩码，然后由图模型进行增强。增强粗掩码被馈送到一个全卷积神经网络中，递归的进行细化。现有的基于图像级别标签的语义分割需要对图像中的每个类别进行标注，但是我们的框架只需要对一副图像进行标签一个，并且可以处理包含多个类别的图
复制链接

扫一扫