【论文阅读笔记】对比学习与语义分割

安联之夜

已于 2022-10-27 16:53:29 修改

阅读量966

点赞数

文章标签：论文阅读学习深度学习 1024程序员节

于 2022-10-23 23:42:55 首次发布

本文链接：https://blog.csdn.net/anlianzhiye/article/details/127482046

版权

用以阅读关于对比学习与语义分割结合的相关论文的笔记，如有解读错误的地方，欢迎提出，另外有推荐文章也可进行分享。

文章一

论文标题：《Exploring Cross-Image Pixel Contrast for Semantic Segmentation》
论文地址：https://arxiv.org/abs/2101.11939
笔记部分：

1、Pixel-Wise Cross-Entropy Loss.

公式： $\mathcal{L}_{i}^{\mathrm{CE}}=-\mathbf{1}_{\bar{c}}^{\top} \log (\operatorname{softmax}(\boldsymbol{y}))$
符号含义：
$-\mathbf{1}_{\bar{c}}^{\top}$ ：像素的标签，具体形式为one-hot
公式解读：该公式为像素级别的交叉熵损失函数，式子中的y为对每个标签的预测概率，具体运算形式如下图。

在这里插入图片描述
其中-log图像在 $x\in(0,2)$ 的图像如下，当 $x = 1$ 时， $y = 0$ 。

因此可以看出，如果需要将ixel-Wise Cross-Entropy Loss优化至最小，那么需要将损失函数中的y优化至最大。

2、Pixel-to-Pixel Contrast

公式： $\mathcal{L}_{i}^{\mathrm{NCE}}=\frac{1}{\left|\mathcal{P}_{i}\right|} \sum_{\boldsymbol{i}+\in \mathcal{P}_{i}}-\log \frac{\exp \left(\boldsymbol{i} \cdot \boldsymbol{i}^{+} / \tau\right)}{\exp \left(\boldsymbol{i} \cdot \boldsymbol{i}^{+} / \tau\right)+\sum_{\boldsymbol{i}^{-} \in \mathcal{N}_{i}} \exp \left(\boldsymbol{i} \cdot \boldsymbol{i}^{-} / \tau\right)}$
符号含义：
i：像素的向量
$i^{+}$ ：同一图片下正样本像素的向量
$\tau$ ：非负常数
$P_{i}|$ ：在不同图片中抽取出的正样本向量内积
公式解读：前面说过，-log函数想得到最小，那么log里面的东西需要达到最大，因此对于 $\mathcal{L}_{i}^{\mathrm{NCE}}$ ，优化方向为增大分子 $exp(i\cdot i^{+}/\tau)$ ，减少分母 $exp(i\cdot i^{+}/\tau)+ {\textstyle \sum_{i^{-}\in N_{i} }^{}} exp(i\cdot i^{-}/\tau)$ 。但因为分母中有一部分与分子相同，那一部分是需要增大的，因此减少分母的优化方向不在这部分，而在负样本部分，即减少正样本像素与每个负样本的距离，即可达到优化损失函数的目的。这里就体现了对比学习的思想。

文章二

论文标题：《Contrastive Learning for Label Efficient Semantic Segmentation》
论文地址：https://arxiv.org/abs/2012.06985v4
笔记部分：

1、Within-image loss

公式： $-\frac{1}{N^{I}}{N^{I}}\sum_{p=1}^{N^{I}}\frac{1}{N_{y_{p}^{I} }^{\hat{I}}} \mathbb{I}_{pq}^{I\hat{I}}log(\frac{e_{pq}^{I\hat{I}}}{\sum_{k=1}^{N^{\hat{I}}}e_{pq}^{I\hat{I}}} )$
符号含义：
$\hat{I}$ ：失真后的图片
$y_{p}^{I}$ ：在图片I中，像素P的类别
$N_{c}^{I}$ ：在图片I中，类别c的数量
$N^{I}$ ：图片I的像素
$f_{p}^{I}$ ：在图片I中，像素P的向量
$\mathbb{I}$ ：指示函数
$e^{AB}_{pk}=exp(f_{p}^{A}\cdot f_{k}^{B}/ \tau)$
$\tau$ ：非负常数
公式解读：该损失函数用于图片内的对比学习，正样本使用的是同一图片经过失真处理后同一类别的向量，其优化的方向与交叉熵函数很相像，但有一点区别，这里使用了指示函数，即在训练过程中更多的考虑正样本影响。

2、Cross-image loss

公式： $-\frac{1}{N^{I}}{N^{I}}\sum_{p=1}^{N^{I}}\sum_{q=1}^{N^{\hat{I}}}\frac{\mathbb{I}_{pq}^{I\hat{I}}}{N_{y_{p}^{I} }^{\hat{I}}+N_{y_{p}^{I} }^{\hat{J}}} log(\frac{e_{pq}^{I\hat{I}}}{\sum_{k=1}^{N^{\hat{I}}}e_{pq}^{I\hat{I}} + \sum_{k=1}^{N^{\hat{J}}}\mathbb{I}_{pq}^{I\hat{J}} e_{pq}^{I\hat{J}}} )-\frac{1}{N^{I}}{N^{I}}\sum_{p=1}^{N^{I}}\sum_{q=1}^{N^{\hat{J}}}\frac{\mathbb{I}_{pq}^{I\hat{J}}}{N_{y_{p}^{I} }^{\hat{I}}+N_{y_{p}^{I} }^{\hat{J}}} log(\frac{e_{pq}^{I\hat{I}}}{\sum_{k=1}^{N^{\hat{I}}}e_{pq}^{I\hat{I}} + \sum_{k=1}^{N^{\hat{J}}}\mathbb{I}_{pq}^{I\hat{J}} e_{pq}^{I\hat{J}}} )$
符号含义：
J：其他数据集的样本
公式解读：该损失函数为前面Within-image loss 的延申，在log里面优化中，增加考虑了不同图片的数据，但更多的还是考虑了正样本的影响，在文章中论文作者提到过当考虑其他图片的负样本时，效果不好。

文章三

论文标题：《Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation》
论文地址：https://arxiv.org/abs/2203.09653#
笔记部分：

1、Pseudo-Region Representation

这里使用了弱监督学习的方式获取像素向量。流程为对于输入的照片I，先通过 $F=\mathcal{F}_{FCN} (I)\in R^{W\times H\times D}$ 和 $P=\mathcal{F}_{CAM} (F)\in R^{W\times H\times L}$ 获得基本的embedding。之后使用掩码平均池化（Masked Average Pooling）的方法，得到像素i的向量 $f_{l}$ 。

2、Pseudo-Region Memory Bank

这里是构建出一个标签集，标签集包含了所有类别的向量，这里的类别向量训练时会有一个更新的过程，公式为 $\gamma m_{l} + (1-\gamma )f_{l}\longrightarrow m_{l}$ ，其中 $\gamma 为参数$ 。

3、Regional Semantic Contrast (RSC)

这里定义了region-aware contrastive loss，公式如下：
$\ M l e sim ⁡ ( f l , m l − ) / τ \mathcal{L}_{l}^{\mathrm{NCE}}\left(\boldsymbol{f}_{l}, y_{l}\right)=\frac{1}{\left|\mathcal{M}_{l}\right|} \sum_{m_{l}^{+} \in \mathcal{M}_{l}}-\log \frac{e^{\operatorname{sim}\left(\boldsymbol{f}_{l}, \boldsymbol{m}_{l}^{+}\right) / \tau}}{e^{\operatorname{sim}\left(\boldsymbol{f}_{l}, \boldsymbol{m}_{l}^{+}\right) / \tau}+\sum_{m_{l}^{-} \in \mathcal{M} \backslash \mathcal{M}_{l}} e^{\operatorname{sim}\left(\boldsymbol{f}_{l}, \boldsymbol{m}_{l}^{-}\right) / \tau}}$

符号含义：
$f_{l}$ ：像素的向量
$y_{l}$ ：标签初步向量
$m_{l}$ ：标签集里的向量
公式解读：与前面的Pixel-to-Pixel Contrast基本一致。但有以下调整：
$\mathcal{L}_{l}^{\mathrm{RM}-\mathrm{NCE}}=\omega \mathcal{L}_{l}^{\mathrm{NCE}}\left(\hat{\boldsymbol{f}}_{l}, y_{l}\right)+(1-\omega) \mathcal{L}_{l}^{\mathrm{NCE}}\left(\hat{\boldsymbol{f}}_{l}, y_{l^{-}}\right)$
其中 $w\in B (\beta,\beta)$
公式解读：这里的调整与对比学习没有联系，更多的是因为这篇文章与弱监督学习相关，文章提到，训练的标签是有噪音的，即可能是不准确的，所以在计算损失函数时，不能只考虑与现有正样本的，还需要考虑负样本里潜在的正样本（即被标错的正样本）。因此这里计算了与负样本的损失函数，并与前面的正样本加权求和。其中这里的权重服从 $\beta$ 分布，使用 $\beta$ 分布分布的原因在于标签标错的概率是未知的，是缺乏大量先验知识的，因此这里使用该分布就行估计概率，其中参数的设定作者参考了其他论文的参数。

4、剩余部分

剩余部分不再涉及对比学习，因此简单叙述。在通过对比学习对Memory Bank里正负样本集的向量，之后在使用k-means进行聚类，每个类别都聚成K个向量，并于前面的样本向量F进行矩阵相乘等操作，得到蕴含整体数据集信息的向量，最后通过class activation maps进行预测，得到最后结果。