论文阅读笔记：Semi-supervised Semantic Segmentation with Error Localization Network

HollowKnightZ

于 2024-08-09 08:00:00 发布

阅读量824

点赞数 30

分类专栏：深度学习论文阅读语义分割文章标签：论文阅读深度学习计算机视觉

本文链接：https://blog.csdn.net/Z960515/article/details/141036356

版权

深度学习论文阅读同时被 2 个专栏收录

61 篇文章

订阅专栏

语义分割

14 篇文章

订阅专栏

论文阅读笔记：Semi-supervised Semantic Segmentation with Error Localization Network

1 背景
2 创新点
3 方法
4 模块
- 4.1 使用标注数据训练ELN
- 4.2 使用ELN进行半监督
5 效果
- 5.1 与SOTA方法对比
- 5.2 消融实验

论文：https://arxiv.org/pdf/2204.02078v3.pdf

代码：http://cvlab.postech.ac.kr/research/ELN/

1 背景

虽然现有的Teacher-Student框架和对比学习在很大程度上提高了语义分割的性能，但他们都有一个共同的缺点：由于对未标注图像的预测通常发生错误，因此使用错误预测进行学习会导致错误的确认偏差，从而返回被破坏的模型。现有的大多数方法只是通过不适用不确定的预测作为监督来解决这个问题，但他们的性能都严重依赖于手动调整的阈值。

最近的一种方法通过学习和利用一个修正错误的辅助网络来处理伪标签上的错误；该模型称为误差校正网络( Error Correction Network，ECN )，从主分割网络的预测和它们在训练图像的标注子集上的真实标签之间的差异中学习。理想情况下，ECN可以显著的提高伪标签的质量，但在实际应用中，由于其训练过程中的挑战，其优势往往受到限制。由于分割网络被快速地过拟合到少量的标注图像上，其输出作为ECN的输入并不能覆盖ECN在测试中面临的各种各样的错误预测，这导致ECN的泛化能力有限。

本文提出了一种新的方法，该方法致力于处理伪标签上的错误，但可以更好地推广到任意伪标注图像的错误。方法的核心是错误定位网络（ELN），他以二值分割的形式识别具有错误伪标注的像素。正如经验证明的那样，简单地忽略无效的伪标签，而不是纠正他们，足以环节确认偏差和学习准确的分割模型。更重要的是，错误定位是第一个类无关的纠错子问题，因此更容易求解，为目标任务训练一个准确的具有良好泛化性的网络更加直接。

2 创新点

本文提出了错误定位，一种处理伪标签上错误的新方法。它简单而有效，可以很自然地与自我训练和对比学习相结合。此外，通过实验证明了错误定位相对于错误纠正的优越性。
本文发展了一种新的策略，在ELN的训练过程中有意识地产生不同的和可能的预测误差。这样即使使用少量带标签的数据进行训练，也提高了ELN的泛化性。

3 方法

在这里插入图片描述
如图2，本文设计了一种新颖的ELN训练策略，以进一步提高模型泛化性。具体来说，在主分割网络上附加多个辅助解码器，并对其进行训练，以达到不同的精度等级，以便他们在不同的训练阶段模拟分割网络。然后训练ELN对辅助解码器和主分割网络给出的预测进行误差定位，该策略提高了ELN的泛化能力，因为这些预测作为ELN的输入可能会表现出分割网络在使用未标记图像进行自我训练时产生的错误模式。
在这里插入图片描述
然后将训练好的ELN用于语义分割的半监督学习。ELN的整体pipeline如图1所示。本文框架通过两种方式利用未标记图像：自训练和对比学习，这两种方式都依赖于伪标签。为此，作者采用两个分割网络：一个学生网络，也是最终应用的模型，一个教师网络，用于生成伪标签并基于学生网络指数平均移动来更新参数。

4 模块

4.1 使用标注数据训练ELN

首先，在标记图像集合 $D_L$ 上用标准的像素级交叉熵损失 $L_{sup}$ 预训练主分割网络。令 $L_{ce}(P,Y)$ 表示分割预测 $P$ 和真值标签 $Y$ 之间的标准像素级交叉熵：
在这里插入图片描述

式中 $i$ 表示输入的每个像素的索引， $Y_i$ 为像素 i 的真值 one-hot 向量。令 $P = D (E (X))$ 表示主网络对图像 $X$ 的分割预测。 $L_{sup}$ 可表示为：
在这里插入图片描述
其中 $Y$ 是输入图像X的真值。

当预训练完成后，每个辅助解码器都以与主网络相似的方式进行训练，但仅在 $L_{ce}(P,Y)$ 的一定倍数下最小化，且梯度不传播到辅助解码器之外。设 $K$ 为所有辅助解码器的个数， $k$ 为他们的索引。 $K$ 个辅助解码器的总损失记为 $L_{aux}$ ：
在这里插入图片描述

其中 $P^k=D^k(E(X))$ 表示第 k 个解码器的预测， $\alpha^k$ 表示一个用于约束第 $k$ 个辅助解码器的损失的尺度超参数，通过这个方式训练辅助解码器可以使他们产生合理的错误预测，并将其作为ELN的训练输入。

损失大于阈值才进行梯度传播。

给定一幅图像及其分割预测作为输入，通过训练ELN对预测进行误差定位，其中错误的真实位置是通过将预测与真实值进行比较得出。令 $E^k$ 表示 $P^k$ 的像素熵图， $B^k=ELN(X⊕P^k⊕E^k)$ 表示以二值分割图的形式对ELN进行预测，其中 $\oplus$ 表示通道级矩阵级联。ELN的二元交叉熵损失 $L_{ELN}$ 如下：
在这里插入图片描述
其中 $M^k$ 表示 $B^k$ 的真值，如果第 $i$ 个像素是对的，则 $M^k_i=1$ ，反之为0， $k = 0$ 表示主解码器。

尽管使用了辅助解码器，但 $M^k$ 中像素级二进制标签的总体通常偏向于1，这损害了ELN的错误识别能力，为了环节这一问题， $L_{ELN}$ 中预测错误的像素使用加权因子进行平衡。令 $L_{wce}$ 表示分割预测 $P$ 与其二值真值标签 $Y$ 之间的权重重新调整的像素级交叉熵：
在这里插入图片描述
所以式（4）被重写为：

在第一阶段中，标注数据的总损失为：

4.2 使用ELN进行半监督

在学习ELN后，主分割网络在有两个损失的未标注图像集 $D_U$ 进行训练，一个是自训练损失，一个是像素级对比损失。作者采用平均教师框架，它允许教师网络对学生网络提供更稳定的伪监督。教师 $(\widetilde{E},\widetilde{D})$ 的权重 $\widetilde\theta$ 通过学生 $(E, D)$ 的 $\theta$ 的指数移动平均以更新比例 $\beta$ 更新：
在这里插入图片描述
提出的自训练监督损失 $L_{pseudo}$ 与 $L_{sup}$ 一样是像素级的交叉熵损失，但仅适用于ELN识别的有效像素。令 $\widetilde{P}=\widetilde{D}(\widetilde{E}(X))$ 表示教师网络的分割预测， $KaTeX parse error: Undefined control sequence: \* at position 10: P^a=D(E(A\̲*̲X))$ 表示学生网络的分割预测，其中 $A$ 表示对输入图像 $X$ 施加扰动算子。损失 $L_{pseudo}$ 可表示为：
在这里插入图片描述
其中 $⌊ ⌉$ 是一个取整到最近整数的函数。 $\hat{Y_i}$ 表示像素 $i$ 的伪标签的 one-hot 向量。通过取整的二值掩码，主分割网络可以仅在有效像素熵训练。

为了进一步提高学习到的特征的质量，作者采用了逐像素的对比损失 $L_{contra}$ 。具体来说，在这种损失中，伪标签相同的特征互相吸引，而来自不同的类别的特征在特征空间中被推开。作者将其范围扩展到整个输入批次中，而不是在单张图像上应用损失，以考虑各种特征关系。对于给定的输入，令 $\Omega_p^i$ 表示属于像素 $i$ 的类别的像素集合， $\Omega_n^i$ 表示不属于像素 $i$ 类的像素集合，令 $d$ 表示距离函数， $d(f_1,f_2)=exp(cos(f_1,f_2)/\tau)$ ，其中 $cos$ 表示余弦相似度， $\tau$ 表示温度超参数。像素级对比损失 $L_{contra}$ 可表示为：
在这里插入图片描述

其中 $V$ 表示 $D_u$ 上的有效像素集合， $f_i$ 和 $\widetilde{f}_i$ 分别表示为像素 $i$ 在学生网络和教师网络上的特征嵌入。

$L_{contra}$ 通过鼓励 $\sum_{k∈\Omega_n^i}d(f_i,\widetilde{f}_k)$ 的值降低，从而促进了不同类别的像素相似度趋近于0，进而拉大了不同类别特征的距离。同时 $L_{contra}$ 通过鼓励 $d(f_i,\widetilde{f}_k)$ 的值增加，从而促进相同类别的像素相似度趋近于1，进而拉近了相同类别特征的距离。