Weakly supervised Semantic Segmentation by Pixel-to-Prototype Contrast

平丘月初

已于 2022-07-13 20:07:36 修改

阅读量989

点赞数

分类专栏： paper 文章标签：原型模式

于 2022-07-13 19:58:31 首次发布

本文链接：https://blog.csdn.net/u011994454/article/details/125768864

版权

paper 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

通过引入cross-view和intra-view的约束，提升类内一致性(intra-class compactness)和类间区分性(inter-class dispersion)。优点就是在不增加推理计算量的情况下，提升(弱)监督场景下的分割效果。我觉得这样的约束，在强监督场景下也可以使用，弥补交叉墒损失的缺陷。

CAM计算

CAM: Class Activation Map
以图像分类问题为例，经过backbone提取特征后，最后一个卷积的特征为 $\in R^{D\times HW}$ ， $H W$ 为特征图维度， $D$ 为通道维度。再用一个 $\, Average\,Pooling\,(GAP)$ 聚合空间特征。最后用一个 $w\in R^{C\times D}$ 映射到类别空间。
本文在计算CAM时，直接对特征 $f$ 做一个通道数为 $C$ 的1x1卷积，得到 $f^{'} \in R^{C\times HW}$ 。对 $f^{'}$ 做个 $R e L U$ 操作，得到CAM。在 $f^{'}$ 的基础上，做一个 $G A P$ 操作，得到每个类别 $c$ 的 $s c o r e$ 。

Pixel-to-Prototype Contrast

每个类别，都存在一个具有代表性的 $e m b e d d i n g$ ，也就是 $p r o t o t y p e$ ，用 $P=\{{p_c}\}^{C}_{c=1}$ 来表示。这里的目标就是在投影特征空间，通过对比学习，让每个像素学到具有区分性的特征 $e m b e d d i n g$ 。这篇文章中，投影空间中，每个像素embedding $v_i\in R^{128}$ ，通过1x1卷积+ReLU得到。核心思想就是推远每个像素和其他类别prototype之间的距离，拉近每个像素和正确类别prototype之间的距离。loss计算如下，比较像交叉墒损失。
$F(v_i;y_i; P) = -log\frac{exp(v_i\cdot p_{y_i}/\tau)}{\sum_{p_c\in P}exp(v_i\cdot p_c / \tau)}$
$y_i\in [1, 2, ..., C]$ 是像素 $i$ 的伪标签，用来决定positive prototype。 $\tau$ 是温度参数，通常设为0.1。

Prototype Estimation

训练过程中，对一整个训练batch的所有伪标签为 $c$ 的像素，选择topK置信度的像素用以估计对应类别的 $p r o t o t y p e$ 。计算方式为每个像素embedding的加权平均，如下所示；再对每个prototype做L2归一化处理。
$p_c = \frac{\sum_{i \in\Omega_c}m_{c,i}v_i}{\sum_{i^{'}\in\Omega_c}m_{c, i^{'}}}$
这在强监督场景下，完全可以使用gt标签，来完美计算出每个类别的 $p r o t o t y p e$ 。

Cross-view Contrast

$L^{cross} = L^{cp} + L^{cc}$

Cross Prototype Contrast

$L^{cp} = \frac{1}{|I|}\sum_{i\in I} F(v_i; y_i; P^{'})$
用另一个view的prototype来约束当前view。

Cross CAM Contrast

$L^{cc} = \frac{1}{|I|}\sum_{i\in I} F(v_i; y_i^{'}; P)$
用另一个view的伪标签决定positive prototype和negative prototype。

Intra-view Contrast

$L^{intra} = \frac{1}{|I|}\sum_{i\in I}F(v_i; y_i; P)$
只是单纯的引入 $L^{intra}$ 会导致效果下降。因为弱监督的场景设定下，像素 $i$ 的伪标很可能不对，会导致不正确的对比。所以本文又提出了semi-hard Prototype Mining的解决方案，此处不赘述。