CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly SSS-CSDN博客

本文链接：https://blog.csdn.net/sanguine__/article/details/145677957

摘要

具有图像级标签的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。主流方法遵循多阶段框架，训练成本高。在本文中，我们探索了对比语言-图像预训练模型 (CLIP) 的潜力，仅使用图像级标签来定位不同的类别，而无需进一步训练。为了从CLIP中高效地生成高质量的分割掩码，我们提出了一种新的WSSS框架CLIP-ES。我们的框架通过CLIP的特殊设计改进了WSSS的所有三个阶段:1)我们将softmax函数引入到GradCAM中，并利用CLIP的零镜头能力来抑制非目标类和背景引起的混淆。同时，为了充分利用CLIP，我们在WSSS设置下重新探索了文本输入，并定制了两种文本驱动的策略:基于清晰度的提示选择和同义词融合。2)为了简化CAM细化阶段，我们提出了一种基于CLIP-ViT中固有的多头自注意(MHSA)的实时类感知注意亲和(CAA)模块。3)当使用CLIP生成的掩码训练最终的分割模型时，我们引入了一个置信度引导损失(CGL)专注于置信区域。我们的 CLIP-ES 在 Pascal VOC 2012 和 MS COCO 2014 上实现了 SOTA 性能，同时只需要前 10% 的时间来生成伪掩码。

Code is available at https://github.com/linyq2117/CLIP-ES.

图一：softmax函数对CLIPGradCAM的影响。原始 GradCAM 使用目标类的 logit（在 softmax 之前）来计算梯度。我们建议根据概率计算梯度（在 softmax 之后）。它可以避免目标类和背景（前两列）与数据集中的其他对象类（后两列）之间的混淆。

1.引言

本文提出了一种新的框架CLIP-ES，以提高WSSS的效率和准确性。在第一阶段，生成的 CAM 通常是多余的和不完整的。大多数方法[43,45]基于二元交叉熵进行多标签分类。损失不是互斥的，因此生成的 CAM 存在前景和背景类别（例如船和水）之间的混淆，例如人和牛，或前景和背景类别，例如船和水，如图 1 所示。不完整性源于分类和定位任务之间的差距，导致 CAM 只关注判别区域。为了解决上述问题，我们将 softmax 函数引入 GradCAM 中，使类别相互排斥并定义一个背景集来实现与类别相关的背景抑制。为了获得更完整的 CAM 并充分享受从 CLIP 继承的优点，我们研究了文本输入在 WSSS 设置中的影响，并设计了两种特定于任务的文本驱动策略：基于清晰度的提示选择和同义词融合。

在第二阶段，我们没有像以往的研究那样训练一个亲和力网络，而是利用Vision Transformer获得的注意力。然而，注意力图是类别不可知的（class-agnostic），而类别激活图（CAM）是类别相关的（class-wise）。为了弥合这一差距，我们提出了一种基于类别感知注意力的亲和力（Class-Aware Attention-based Affinity, CAA）模块，用于实时优化初始的 CAM。该模块可以集成到第一阶段中。在不针对下游数据集对 CLIP 进行微调的情况下，我们的方法保留了 CLIP 的泛化能力，并且能够灵活地为新类别和新数据集生成伪标签。

在最后阶段，从改进的cam中获得的伪掩码被视为ground truth，以完全监督的方式训练分割模型。然而，伪掩码可能有噪声，直接用于训练可能会误导优化过程。我们提出了一种置信度引导损失（CGL），通过忽略伪掩码中的噪声来训练最终的分割模型。

我们的贡献总结如下：

•我们提出了一个简单而有效的基于冻结CLIP的WSSS框架。我们发现，仅给定图像级标签，CLIP无需进一步训练即可执行出色的语义分割。我们的方法可以激发CLIP中存在的对象的定位潜力。

•我们将softmax功能引入到GradCAM中，并设计了一个与类相关的背景集来克服类别混淆问题。为了获得更好的cam，本文从CLIP中继承了一些文本驱动策略，并针对WSSS进行了专门的重新设计。

•我们提出了一个基于类别感知的基于注意力的亲和模块（CAA）来实时改进初始cam，并在训练最终分割模型时引入信心引导损失（CGL）来减轻伪掩码中的噪声。

•实验结果表明，我们的框架可以达到SOTA性能，并且在生成伪掩码时比其他方法效率高10倍。

2.最近工作

精炼初始CAM阶段。在这个阶段，通常学习两两语义关联来改进CAM映射。PSA[2]训练网络学习像素亲和力，并将注意图中强烈响应的语义传播到语义相似的像素。IRNet[1]和BES[6]合成类边界，扩展对象覆盖直至边界。另一种方法利用额外的显著性图来获得精确的背景或区分共同发生的物体[15,19,27]。

训练分割模型阶段。传统方法[19,27]采用全局阈值从cam生成伪掩码，由于忽略置信度信息，不能充分利用cam。在这个阶段，只有少数作品试图抑制噪音。PMM[30]提出了伪欠拟合策略来重新加权潜在噪声像素的损失。URN[29]对预测图进行多次缩放，进行不确定性估计。然而，前者仅在损失水平上操作，不使用置信度，而后者对于多个密集的CRF过程是耗时的。

2.2. Contrastive Language-Image Pretraining

对比语言-图像预训练(CLIP)[34]由图像编码器和文本编码器组成。它学习相应的嵌入并测量图像和文本之间的相似性。得益于这种灵活的框架，CLIP 可以在超大型数据集上进行训练，并广泛用于下游零样本任务。CLAMS[46]首先将CLIP引入到WSSS中，激活更完整的目标区域，抑制背景区域。然而，在CLIMS中，CLIP只是评估对象存在的工具，另一个CNN模型用于生成CAM。在本文中，我们直接使用 CLIP 来生成 CAM，并彻底探索图像中文本和对象之间的关系，更简单、更高效。

3. Method

在本节中，我们提出了我们的CLIP-ES框架，如图2所示。我们首先回顾GradCAM和CLIP，并用相应的类相关背景抑制策略演示了softmax函数对GradCAM的影响。然后，我们介绍了 WSSS 设置中为 CLIP 提出的两种文本驱动策略：基于锐度的提示选择和同义词融合。最后，我们详细介绍了基于类感知的基于注意力的亲和力 (CAA) 和置信度引导的损失 (CGL)。

图二：我们提出的框架的概述。我们将 softmax 函数引入 GradCAM，并定义一个与类相关的背景集来使类别相互排斥。K 和 M 分别表示图像和背景集中的类别数。初始 CAM 由具有精心设计的文本（例如提示选择、同义词融合）的 Grad-CAM 生成。CAA模块是基于Transformer内部MHSA提出的，实时细化初始CAMs。整个 CAM 生成过程是无训练的。CGL 在基于置信度图计算损失时忽略了噪声位置。

3.1. Softmax-GradCAM

类激活映射(CAM)[51]被广泛用于通过特征映射的加权组合来识别目标类的判别区域。然而，它仅适用于特定的 CNN 架构，例如，特征图后立即具有全局平均池化 (GAP) 层的模型。GradCAM [38] 使用梯度信息来组合特征图，因此不需要网络架构。对于原始的GradCAM，类特征权重可以计算为Eq.(1):

Yc 对 Aijk 的偏导数，表示特征图 k 在位置 (i,j) 的激活值对类别 c 的输出分数的贡献。

这个公式的意思是，对于每个特征图 k，我们计算模型对于目标类别 c 的输出分数对每个激活值的偏导数，然后对所有位置的偏导数求和，最后除以特征图中的像素总数 Z。这样得到的权重 wck 反映了特征图 k 对于目标类别 c 的整体贡献。

在实际应用中，这个权重可以通过对模型进行反向传播来计算得到。具体来说，我们首先计算模型对于目标类别 c 的输出分数的梯度，然后将这个梯度反向传播到特征图 k 的每个激活值，最后对所有位置的梯度求和并除以特征图中的像素总数 Z。这样就得到了权重 wck。

其中 wc k 是第 k 个特征图的第 c 类对应的权重，Z 是特征图中像素数，Y c 是第 c 类的 logit 分数，Ak ij 表示第 k 个特征图在位置 (i, j) 处的激活值。那么 c 类在空间位置 (i, j) 处的 CAM 图可以通过等式2获得。ReLU 用于忽略对目标类产生负面影响的特征。

预训练的 CLIP 模型包括两种架构，例如基于 ResNet 和基于 ViT。请注意，Grad-CAM 不仅适用于基于 CNN 的架构，也适用于视觉转换器。在本文中，我们利用基于 ViT 的 CLIP 模型，因为基于 CNN 的模型无法探索全局上下文并严重受到判别部分域的影响。这两个架构之间的比较可以在附录中找到。

我们的工作使GradCAM适应CLIP。在 vanilla GradCAM [38] 中，最终分数是 softmax 函数之前的 logits。由于WSSS的多标签设置，分类网络通常采用二元交叉熵损失[43,45]，缺乏不同类别之间的竞争。CLIP通过softmax的交叉熵损失进行训练，但在我们的实验中仍然存在类别混淆问题。我们假设这是因为CLIP的训练数据是图像-文本对，而不是一组固定的独立类别。对于一幅图像，对应的文本片段可能包含几个类的视觉概念，不能通过Softmax相互竞争。本文将 softmax 函数引入 GradCAM 中，使不同的类别相互排斥。具体来说，最终分数由 softmax 计算如下：

假设一个图像中包含“人”和“车”，使用二元交叉熵损失时，模型可能会对“人”和“车”都输出较高的概率，但不会自动抑制“背景”或其他不相关的类别（如“牛”或“羊”）。这种情况下，模型的输出可能不够精确，尤其是在类别之间存在混淆的情况下。

对比：Softmax 交叉熵损失

与二元交叉熵损失不同，Softmax 交叉熵损失（Softmax Cross-Entropy Loss）用于多分类任务，它通过 Softmax 函数将模型的输出转换为概率分布，并确保所有类别的概率之和为 1。这使得类别之间存在竞争关系，模型必须在不同类别之间做出选择。

sc 是 softmax 之后第 c 类的分数。然后使用处理后的分数来计算梯度，类特征权重可以计算为：

公式 (3) 是 softmax 函数的定义，它将模型的输出分数（logits）转换为概率分布。

sc(1−sc) 是目标类别的概率乘以其补概率，表示目标类别的置信度。

这一部分的作用是增强目标类别对梯度的贡献，同时通过 sc(1−sc) 来调整梯度的强度。如果目标类别的置信度很高（即 sc 接近 1），那么 sc(1−sc) 会较小，梯度的贡献也会相应减小；反之，如果置信度较低，梯度的贡献会更大。

这一部分的作用是抑制非目标类别的贡献。通过 sc(−sc′) 的负权重，非目标类别的梯度会被减去，从而减少它们对最终权重的影响。

整体效果：这种加权机制使得最终的权重 wck 更加专注于目标类别，同时减少了类别混淆问题。

等式。 (4) 表明目标特征图的权重将被非目标类抑制。因此，目标类的相应 CAM 可以通过剩余的类进行修改。然而，比赛仅限于数据集中定义的类别。为了将目标类别的像素与背景类别的像素区分开来，我们提出了一种与类别相关的背景抑制方法。我们定义了一个包含 M 个常见背景类别的集合，这些背景类别与数据集中定义的类别相关。通过这种方式，背景类别的像素将被抑制。得益于 CLIP 的零样本（zero-shot）能力，我们只需修改输入文本，而无需像以往的基于训练的方法那样重新训练分类网络来处理背景类别。

3.2. Text-driven Strategies

对于 CLIP，文本编码器充当线性分类器权重生成器，该生成器基于指定类所代表的视觉概念的文本。我们的框架可以通过设计特定的文本输入来享受从 CLIP 继承的多个优点。在这一部分中，我们重新探讨了文本输入在WSSS设置下的效果，提出了基于清晰度的提示选择和同义词融合来提高CAM生成过程。

3.2.1基于清晰度的提示选择

我们发现提示集成的性能在分类任务和 WSSS 任务之间有所不同。具体来说，对于ImageNet[11]上的分类任务，提示集成可以大大优于每个单独的提示，而在PASCAL VOC[14]上执行WSSS时它不是最佳选择。我们怀疑这种差异主要是由于每张图像的标签数量不同。分类数据集，例如 ImageNet，是单标签的，而分割数据集，例如 PASCAL VOC，是多标签的。前者旨在为唯一的目标类分配最大分数，而后者需要考虑图像中的所有目标类。我们声称提示集成将使得分最高的目标类更加突出。但是对于多标签图像，突出的目标类将抑制其他目标类的分数。这会影响后续用于 Grad-CAM 的梯度计算，并导致分割性能不佳。

为了验证我们的猜想，我们设计了一个度量，即锐度，用不同的提示来衡量多标签图像的目标类分数的分布。该指标的灵感来自变异系数，这是一种广泛用于统计的指标。假设数据集中有 n 张图像，图像中的 k(k>= 1) 个类别，基于特定提示的锐度可以计算如下：

n 是数据集中的图像数量。

k 是每张图像中目标类别的数量（k≥1）。

sij 是第 i 张图像中第 j 个类别的 softmax 后的概率分数。

var(⋅) 表示方差，衡量分数的离散程度。

mean(⋅) 表示均值，衡量分数的平均水平。

分子（方差的和）：

方差衡量了每个图像中不同类别分数的离散程度。如果方差较大，说明某些类别的分数明显高于其他类别；如果方差较小，说明所有类别的分数较为接近。

对所有图像的方差求和，反映了整个数据集中类别分数的离散程度。

分母（均值的和）：

均值衡量了每个图像中所有类别分数的平均水平。

对所有图像的均值求和，反映了整个数据集中类别分数的整体水平。

锐度的意义：

高锐度：分子（方差）较大，说明某些类别的分数明显高于其他类别，模型倾向于突出某个主要类别。

低锐度：分子（方差）较小，说明所有类别的分数较为接近，模型对多个类别都有较高的关注，而不是突出某个单一类别。

锐度与分割性能的关系：论文中发现，锐度较低的提示（即类别分数分布较为均匀的提示）通常在多标签分割任务中表现更好，因为它们能够更好地平衡多个目标类别的贡献。

集成提示是一种通过组合多个提示来提升模型性能的技术。它通过利用提示的多样性，增强模型的鲁棒性和准确性，并提供更丰富的语义信息。

sij 表示第 i 张图像中第 j 个类别的 softmax 后的分数。由于当均值接近 0 时，变异系数（Coefficient of Variation）是不稳定的，因此我们使用方差而不是标准差来突出离散程度的效果。

在图3中，我们比较了从Pascal VOC 2012训练集上CLIP1中使用的ImageNet提示中随机选择的20个提示中的清晰度和相应的分割结果。结果表明，我们提出的指标与分割性能大致呈负相关。因此，清晰度可以作为提示选择的方便指导，只需要图像级标签。在反复试验后，我们发现一些抽象描述，例如“origami”和“渲染”，以及一些形容词，例如“clean”、“large”和“weird”，对分割性能产生积极影响。我们最终选择“a clean origami {}.”作为我们的提示，较低的“锐度”。

3.2.2同义词融合

由于数据集中提供的类别名称有限，我们使用同义词来丰富语义并消除歧义。有多种策略来合并不同同义词的语义，例如句子级、特征级或 CAM 级。我们在附录中提供了三种策略的详细比较。在本文中，我们在句子级别合并同义词。特别是，我们将不同的同义词放入一个句子中，例如"A clean origami of person, people, human"。这在面对多义词时可以消除歧义，并且具有时间效率，因为其他方法需要多次前向传递。同义词可以很容易地从 WordNet 或最近的 Glove 词嵌入中获得。此外，可以通过定制特定单词来进一步提高某些类的性能。例如，“人”的 CAM 倾向于关注人脸，而地面实况分割掩码覆盖整个身体。“人”和“衣服”很可能被视为 CLIP 中的两个不同类别。通过将“人”替换为"person with clothes"，可以在一定程度上缓解这个问题。

3.3. 基于类感知注意的亲和力 (CAA)

最近，一些工作 [37, 48] 使用从 Transformer 中获得的注意力作为语义级亲和力来优化初始的类别激活图（CAMs）。然而，这些改进是有限的，它们仍然需要一个额外的网络 [48] 或额外的层 [37] 来进一步优化 CAMs。这是因为原始的多头自注意力（MHSA）是类别不可知的（class-agnostic），而 CAM 是类别相关的（class-wise）。直接利用 MHSA 可能会在优化过程中将噪声像素传播到语义相似的区域，从而放大噪声，如图 5 所示。为了改进原始的 MHSA，我们提出了类别感知注意力基础亲和力（Class-Aware Attention-based Affinity，CAA）。给定一张图像，我们可以得到每个目标类别 c 的类别相关 CAM 图 Mc∈Rh×w 以及来自 MHSA 的注意力权重 Wattn∈Rhw×hw。由于查询（query）和键（key）使用了不同的投影层，注意力权重是不对称的。我们利用 Sinkhorn 归一化 [39]（交替应用行归一化和列归一化）将其转换为一个双随机矩阵 D，并可以得到对称的亲和力矩阵 A，如下所示：

对于类别 c 的类别激活图 Mc∈Rh×w，我们可以通过使用阈值 λ 对该类别的 CAM 进行阈值处理来获得每个目标类别的掩码图。我们在掩码图上找到连通区域，并使用覆盖这些连通区域的最小矩形边界框。这些边界框用于掩蔽亲和力权重 A，然后每个像素可以根据其语义相似像素，基于掩蔽后的亲和力权重进行优化。我们采用边界框掩蔽而不是像素掩蔽，以覆盖更多物体区域，以弥补初始 CAM 的极度不完整性。我们多次重复这种优化过程，这一过程可以形式化如下。

其中 Bc ∈ R1×hw 是从 c 类的 CAM 获得的框掩码，⊙ 是 Hadamard 乘积，t 表示细化迭代次数，vec(·) 表示矩阵的向量化。请注意，我们提取具有相同前向传递的注意力图和 CAM。因此，CAA 细化是实时的，不需要像以前的工作那样的额外阶段。

Maffc：

这是经过优化后的类别 c 的激活图（affinity-refined CAM）。它表示经过 CAA 模块处理后的最终结果。

Bc：

这是类别 c 的边界框掩码（box mask），是一个一维向量，形状为 R1×hw。

它是通过在初始 CAM Mc 上应用阈值 λ 并找到连通区域后生成的最小矩形边界框得到的。

边界框掩码的作用是突出目标对象的区域，同时忽略背景或其他不相关的区域。

At：

这是对称的亲和力矩阵 A 的 t 次幂，表示经过 t 次迭代优化后的亲和力矩阵。

A 是通过 Sinkhorn 归一化处理后的双随机矩阵，用于表示像素之间的语义相似性。

t 是迭代次数，表示优化过程的深度。多次迭代可以逐步传播和优化像素之间的关系。

⊙：

这是逐元素的哈达玛积（Hadamard product），用于将边界框掩码 Bc 应用于亲和力矩阵 At。

vec(Mc)：

这是将初始 CAM Mc 展平为一维向量的操作。具体来说，它将 Mc 的二维矩阵 Rh×w 转换为一维向量 Rhw。

这样可以方便与亲和力矩阵 At 进行矩阵乘法操作。

矩阵乘法 At⋅vec(Mc)：

这一步是将优化后的亲和力矩阵 At 与初始 CAM 的向量 vec(Mc) 进行矩阵乘法。

它的作用是根据亲和力矩阵传播和优化每个像素的激活值，使得语义相似的像素能够相互影响。

公式 (7) 的理解

公式 (7) 的核心思想是通过类别感知的边界框掩码 Bc 和优化后的亲和力矩阵 At 来改进初始 CAM Mc。具体步骤如下：

生成边界框掩码 Bc：

通过在初始 CAM Mc 上应用阈值 λ，找到目标类别的连通区域。

使用最小矩形边界框覆盖这些连通区域，生成边界框掩码 Bc。

优化亲和力矩阵 At：

使用 Sinkhorn 归一化处理多头自注意力（MHSA）得到的不对称亲和力矩阵 Wattn，得到对称的双随机矩阵 A。

通过多次迭代（t 次），逐步优化亲和力矩阵 A，使其更好地表示像素之间的语义相似性。

应用边界框掩码和亲和力矩阵：

使用哈达玛积 ⊙ 将边界框掩码 Bc 应用于优化后的亲和力矩阵 At。

这样可以确保只有目标区域的像素参与优化，避免背景或其他不相关区域的干扰。

传播和优化 CAM：

将初始 CAM Mc 展平为一维向量 vec(Mc)。

使用优化后的亲和力矩阵 At 与 vec(Mc) 进行矩阵乘法，传播和优化每个像素的激活值。

最终得到优化后的 CAM Maffc。

3.4.置信度引导损失(CGL)

CAM 中的每个像素表示该位置属于目标类别的置信度。大多数方法通过简单地设置一个阈值来从 CAM 中生成伪掩码，以区分目标对象和背景。然而，这种方法可能会在伪掩码中引入噪声，因为那些置信度较低的位置过于不确定，无法属于正确的类别。因此，我们尝试忽略这些不自信的位置，并提出了一种置信度引导的损失函数（Confidence-Guided Loss, CGL），以充分利用生成的 CAMs。具体来说，给定一个包含 c 个目标类别的图像的 CAM 图 X∈Rh×w×c，可以通过以下方式获得置信度图：

最终损失定义为Eq.(9):

其中 L(i, j) 是语义分割模型的预测与像素 (i, j) 的伪掩码之间的交叉熵损失，μ 是忽略低置信度像素的超参数。

公式 (8) 的理解

X(i,j,c)：

这是 CAM 图 X 在位置 (i,j) 处，对于类别 c 的置信度值。

maxc(X(i,j,c))：

这是位置 (i,j) 处所有类别置信度的最大值，表示该位置最可能属于的类别。

1−maxc(X(i,j,c))：

这是位置 (i,j) 处最可能类别的置信度的补值，表示该位置不属于任何类别的置信度。

max(1−maxc(X(i,j,c)),maxc(X(i,j,c)))：

这是位置 (i,j) 处的置信度值，取上述两个值中的较大者。

如果 maxc(X(i,j,c)) 较大（即该位置很可能是某个类别的成员），则 Conf(i,j) 会较大。

如果 1−maxc(X(i,j,c)) 较大（即该位置很可能是背景或不属于任何类别），则 Conf(i,j) 会较小。

公式 (9) 的理解

L(i,j)：

这是位置 (i,j) 处的交叉熵损失，表示模型预测的类别与伪掩码中真实类别的差异。

Conf(i,j)：

这是位置 (i,j) 处的置信度值，由公式 (8) 计算得到。

μ：

这是一个超参数，用于设置置信度的阈值。如果 Conf(i,j)≥μ，则认为该位置的置信度足够高，可以用于计算损失；否则，该位置的损失将被忽略。

L^(i,j)：

这是位置 (i,j) 处的置信度引导的损失。

如果 Conf(i,j)≥μ，则 L^(i,j)=L(i,j)，即使用交叉熵损失。

如果 Conf(i,j)<μ，则 L^(i,j)=0，即忽略该位置的损失。

4. Experiments

4.1. Experimental Setup

数据集和评估指标。我们在 PASCAL VOC 2012 [14] 和 MS COCO 2014 [32] 数据集上评估我们提出的框架。PASCAL VOC 2012 包含 21 个类别（一个背景类别）。具有 10,582 张图像的增强集用于 [24, 27] 之后的训练。MS COCO 2014 包含 80 个对象类和一个背景类。它包括 82,081 张图像用于训练，40,137 张图像用于验证。我们只在 CAM 生成期间使用图像级真实标签。所有实验采用均值交集over Union (mIoU)作为评价指标。

实施细节。对于CAM生成，我们采用CLIP预训练模型ViT-B-16[34]。用于生成 CAM 的特征图是 ViT 中最后一个自注意力层之前的特征图。我们将类标记替换为剩余标记的平均值来计算最终 logits，这可以显着提高性能。详细分析在附录中讨论。输入图像保持其原始大小，在推理过程中我们不使用多尺度策略。CAA 模块中使用的 λ 分别设置为 VOC 和 COCO 的 0.4 和 0.7。生成的 CAM 由密集 CRF [21] 进一步处理以生成最终的伪掩码。对于最终的分割，我们按照之前的工作[24,27,46]使用基于resnet101的DeepLabV2，更多细节在附录中提供。

4.2. Experimental Results

生成的 CAM 质量。表 1 展示了我们生成的 CAM 的质量。我们的框架在初始种子上大幅超越了所有先前的方法。条件随机场（CRF）能够进一步将性能提升至 75.0%，这一结果甚至超过了之前使用额外亲和力网络的方法。该结果已经足够准确，因此我们省略了训练亲和力网络的阶段。我们在图 4 中展示了我们框架与其他语言引导方法 CLIMS [46] 的定性结果。我们的框架能够生成准确且完整的分割掩码。不好的案例主要源于遮挡和小目标，这些问题即使在全监督设置中也具有挑战性。此外，在以往的研究中，通常会在推理过程中聚合多尺度图像的预测结果。在表 2 中，我们比较了单尺度和多尺度策略（用 * 表示）生成的 CAM 质量。由于在使用 CAA 模块和密集 CRF 后处理的情况下，多尺度推理没有带来改进，因此我们在实验中采用了单尺度推理。

时间和内存效率。表3，我们将我们的时间和内存成本与一些相关工作进行了比较。得益于预训练的CLIP模型，我们的方法不需要对特定数据集进行分类训练。ViT 中固有的 CAA 模块集成到生成初始 CAM 的第一阶段。因此，我们的框架可以实时细化 CAM，并通过训练亲和力网络（例如 PSA [2] 和 IRN [1]）不需要额外的细化阶段。最大内存发生在先前工作的亲和力网络训练期间，PSA 和 IRN 约为 18GB。因此，我们的方法在时间和内存方面比其他工作效率高 10 倍。同时，通过采用单尺度策略来保证推理速度，这与我们方法中的多尺度策略具有竞争力（表 2)。

“使用 VOC 预训练模型”意味着在 PASCAL VOC 数据集上进行微调的预训练模型。这种技术利用了预训练模型在大规模数据集上学习到的通用特征表示，从而提高目标任务的性能，减少训练数据需求，并加速训练过程。

分割性能。为了进一步评估伪掩码的质量，我们基于 DeepLabV2 和 ResNet-101 架构，按照文献 [6, 8, 46] 的方法训练了分割模型。在表 4 中，我们将我们的框架与其他相关方法在 PASCAL VOC 2012 数据集上进行了比较。我们的方法超越了所有先前的工作，包括那些使用显著性图作为辅助监督的方法。我们的 CLIP-ES 方法在验证集和测试集上分别达到了 73.8% 和 73.9% 的平均交并比（mIoU），这是一项新的最高水平（state-of-the-art）。MS COCO 2014 数据集上的评估结果报告在表 5 中。我们的方法在验证集上也取得了最佳性能，达到了 45.4% 的 mIoU。

4.3. Ablation Study

softmax 函数的效果。我们将 softmax 函数引入 Grad-CAM，使不同类别之间相互排斥。首先，比较了 VOC 中定义的 20 个类别在使用和不使用 softmax 时的性能。表 6（用 * 标记）中的结果显示，基于 softmax 的 Grad-CAM 显著提升了性能（从 49.4% 提高到 53.3%）。随后，为了评估我们定义的类别相关背景集的有效性，我们按照文献 [27, 46] 的方法，报告了“boat”（通常与“water”混淆）和“train”（通常与“railway”混淆）的结果。如表 6 所示，“boat” 和 “train” 的 mIoU 分别提高了 22.8% 和 13.7%。所有类别的整体性能提高了 9.2%。上述结果表明，softmax 能够高效地解决类别混淆问题。

CAA的影响。在表2，我们提供了初始 CAM 和 CAA 精炼 CAM 的 mIoU，并将我们的 CAA 模块与 ViT 中的 vanilla MHSA 进行了比较。结果表明，通过引入类感知掩码，我们的CAA模块可以显著提高MHSA。图 5 显示了不同细化策略的视觉比较。我们的 CAA 模块可以使初始 CAM 的对象激活完成并减轻错误激活区域的影响。

CGL的作用。在表7中，我们将CGL与原始交叉熵损失进行了比较。结果表明，CGL可以进一步提高性能。请注意，它不需要额外的信息，只是充分利用cam中的自信信息。置信度图可视化如图4所示。我们可以发现，不自信像素主要集中在物体边界上，这是合理的，因为边界往往是语义模糊的区域。

同义词融合的效果。在表 8 中，我们比较了某些类别在使用和不使用同义词时的性能。通过应用同义词，结果可以显著提升，尤其是在“person”这一类别上，我们用“person with clothes, people, human”来替换它。

5. Conclusion

本文探索了CLIP使用图像级标签定位不同类别的潜力，并为WSSS提出了一个简单而有效的框架CLIP-ES。我们为每个阶段提出了几种改进策略来获得高质量的 CAM 并降低训练成本。该框架是文本驱动的，可以有效地生成伪掩码进行语义分割，而无需进一步训练。我们的框架在 PASCAL VOC 2012 和 COCO 2014 上实现了最先进的性能，并且有可能为新类生成分割掩码。