论文阅读：Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Seman

最新推荐文章于 2024-08-13 10:32:00 发布

zhangst431

最新推荐文章于 2024-08-13 10:32:00 发布

阅读量2.9k

点赞数 5

分类专栏： # 弱监督语义分割文章标签： c++ 计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_43409779/article/details/121453155

版权

弱监督语义分割专栏收录该内容

3 篇文章 1 订阅

订阅专栏

论文：Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
论文下载：[https://openaccess.thecvf.com/content_cvpr_2018/papers/Ahn_Learning_Pixel-Level_Semantic_CVPR_2018_paper.pdf](https://openaccess.thecvf.com/content_cvpr_2018/papers/Ahn_Learning_Pixel-Level_Semantic_CVPR_2018_paper.pdf)
源码地址：[https://github.com/jiwoon-ahn/psa](https://github.com/jiwoon-ahn/psa)

Abstract

像素级语义分割标签的不足是语义分割的主要障碍之一。本篇论文作者提出了一种框架，该框架根据图像的图像级类别标签生成像素级语义分割结果。众所周知，使用图像级标签的弱监督语义分割模型的特点是只能分割出物体最值得注意的部分而非分割出整个物体（例如：猫的头，具体原因见我上一篇博客有写，这里不再赘述：论文阅读：Weakly-Supervised Semantic Segmentation via Sub-Category Exploration）。论文中作者的解决方案是将这种局部的响应传播到附近语义相似的区域。为此，作者提出了一种深度神经网络模型（作者称之为AffinityNet）用来预测图像中一对相邻坐标之间的语义相似性。然后利用上述网络预测的语义相似性结果，通过随机游走策略实现语义传播过程。更重要的是，用于训练语义相似网络（AffinityNet）的监督信号是由最初的只高亮了最值得注意的部分的分割标签（说人话就是CAM）提供的，虽然用CAM直接作为分割标签训练语义分割模型远远不够，但是只是通过其来计算部分区域的语义相似性便绰绰有余。因此，整个框架中需要的标签就只有图像级的类别标签，而不需要额外的数据或标注信息。

Method

framework

在这里插入图片描述
如上图所示为作者所使用的方法，其具体流程如下：

训练分类网络提取CAM作为训练AffinityNet的监督信号。
利用CAM提取语义相似信息来训练AffinityNet。
利用训练的AffinityNet提取语义相似信息并利用Random Walk（RW）算法优化CAM从而生成用于语义分割的pseudo label。
利用第3步生成的pseudo label训练全监督的语义分割模型。

在推理阶段则只需要训练好的全监督语义分割模型就可以根据输入图片直接生成其最终的mask了。

Details

Computing CAMs

提取CAM的方法就是利用的传统的根据最后一个卷积层的feature map以及GAP后面的全连接层的权重计算每一类的CAM，将提取出来的经过最大值归一化的CAM用 $M_c$ 来表示。需要注意的是：在提取CAM的过程中，如果图片的image lavel label中没有某类别，那我们就直接把那个类别的CAM置为0。另外，背景的mask通过如下的公式计算：
$M_{bg}(x, y) = \{1 - \max_{c \in C}{M_c(x, y)} \}^\alpha$
其中C表示数据集中所有类别的集合， $\alpha > 1$ 是一个超参数，用来调节背景的分数占比。

Learning AffinityNet

如上图所示为AffinityNet的网络结构，为了节省计算量，AffinityNet被设计为用于生成feature map $f^{aff}$ 的卷积神经网络，其中语义相似性（semantic affinity）被定义为feature map中两个特征向量之间的 $L_1 distance$ 。生成语义相似性的具体公式为：
$W_{(ij)} = exp\{ - \left \| f^{aff}(x_i, y_i) - f^{aff}(x_j, y_j) \right \|_1 \} ,$
其中 $x_i, y_i)$ 表示feature map $f^{aff}$ 中第i个feature的坐标。

Generating Semantic Affinity Labels

作者的基本思路就是从CAM中提取语义相似信息，虽然用CAM作为语义分割网络的监督信号确实不够完整，但是其在局部的区域还是足够可信的，作者便只关注这些CAM较为自信的区域，用这些区域的特征来生成语义相似性标签。其具体做法如下：

为了获得CAM对前景更自信的区域，作者首先通过减小 $\alpha$ 来增强背景区域，然后对CAM使用dCRF（稠密的条件随机场）来优化CAM，然后从其中选取出前景的mask。
与步骤一相反，减小 $\alpha$ 的值来减弱背景区域的影响，从而得到CAM更自信的背景区域，提取背景的mask。
剩下的区域我们认为是中性的，CAM不能足够确信其是前景也不能确信其是背景，故我们在训练AffinityNet的时候就单纯地忽略这些区域。
利用上面得到的mask提取语义相似信息，对于两个坐标 $x_i, y_i)$ 和 $x_j, y_j)$ ：
- 如果连个坐标都不是中性区域坐标：如果二者是同一类别则将给其label赋为1，否则给其赋为0。
- 如果有一个中性区域坐标则我们在训练的时候直接忽略这些区域。

Affinity Training

在训练AffinityNet的过程中只考虑足够相近的两个坐标的语义相似性。主要原因有一下两点：1.缺乏上下文信息的情况下，用CNN预测两个相距很远的坐标的语义相似性是很的。2. 这样可以节省计算量。我们将用于训练AffinityNet的坐标集合记为 $\mathcal P$ ，其定义如下：
$\{(i, j) | d((x_i, y_i), (x_j, y_j)) < \gamma, \forall i \ne j \}$
其中 $d (\cdot, \cdot)$ 表示连个坐标之间的欧氏距离。

然而，只是限制采样坐标之间的欧式距离还不够，作者还注意到其中正样本和负样本的数量严重的不平衡，因为负样本只是在物体的边界才能得到，故label中正样本的数量远大于负样本的数量。同样的，在正样本中，背景的区域又会远大于前景的区域（因为在大部分照片中都是这样），接下来，计算loss的时候会将这几个子集分开计算（这些公式好麻烦呀，不自己敲了，直接贴图）。