Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation

sanguine__

已于 2024-11-14 15:55:04 修改

阅读量1.5k

点赞数 13

文章标签：人工智能深度学习机器学习

于 2024-09-10 21:40:35 首次发布

本文链接：https://blog.csdn.net/sanguine__/article/details/142065533

版权

摘要

弱监督语义分割在图像级标签方面取得了巨大的成就。最近的几种方法使用CLIP模型生成伪标签来训练单个分割模型，而没有尝试将CLIP模型作为主干，直接分割具有图像级标签的对象。在本文中，我们提出了 WeCLIP，一个基于 CLIP 的单阶段管道，用于弱监督语义分割。具体来说，冻结的 CLIP 模型被用作语义特征提取的主干，设计了一种新的解码器来解释提取的语义特征以进行最终预测。同时，我们利用上述冻结的主干生成伪标签来训练解码器。这些标签在训练期间无法优化。然后，我们提出了一个细化模块（RFM）来动态纠正它们。我们的架构强制所提出的解码器和 RFM 相互受益，以提高最终性能。大量实验表明，我们的方法在训练成本较低的情况下明显优于其他方法。此外，我们的 WeCLIP 在完全监督的设置中也取得了可喜的结果。

The code is available at https://github.com/zbf1991/WeCLIP.

图一：我们的方法与其他单级或基于clip的方法之间的比较。(a) 以前的单阶段方法，它使用可训练的 ImageNet [11] 预训练主干，具有可训练的分类和分割过程。(b) 以前基于 CLIP 的方法，这是一种多阶段方法，它使用 Frozen CLIP 模型生成伪标签并训练单个 ImageNet 预训练的分割模型。(c) 我们的方法。我们的方法是一种单阶段方法，它使用冻结的CLIP模型作为骨干，具有可训练的分割过程，显著降低了训练成本

我们的贡献总结如下：

我们发现 CLIP 主干可以直接用于弱监督语义分割，而无需进行微调。使用我们设计的解码器，冻结的 CLIP 特征直接解释为分割对象的语义信息，构建强大的单阶段解决方案。
为了克服冻结主干仅提供静态伪标签的缺点，我们设计了一个 Frozen CLIP CAM 细化模块 (RFM) 来动态更新初始 CAM 以提供更好的伪标签来训练我们的模型。
以较少的训练成本，我们的方法明显优于以前的方法，在弱监督语义分割（mIoU：VOC 2012 测试集上为 77.2%，COCO val 集上为 47.1%）。此外，我们的方法在完全监督的语义分割方面也显示出巨大的潜力。

3. Method

3.1. Overview

图二：我们的 WeCLIP 框架。图像被输入到 Frozen CLIP 图像编码器以生成图像特征，类标签用于构建文本提示，然后输入到 Frozen CLIP 文本编码器以生成文本特征。分类分数是根据池化图像和文本特征之间的距离生成的。使用 GradCAM，我们可以生成初始 CAMMinit。然后，每个变压器块最后一层的冻结图像特征输入到我们的解码器中，生成最终的语义分割预测。同时，来自解码器的亲和映射Af和多头注意映射As从CLIP输入到我们的RFM中，建立细化映射R，将Minit细化为Mf。在后处理之后，它将用作训练解码器的监督。

图 2 显示了我们方法的整个框架，包括四个主要模块：一个冻结的 CLIP 主干（图像编码器和文本编码器）来编码图像和文本，一个用于生成初始 CAM 的分类过程，一个用于生成分割预测的解码器，一个 RFM 来细化初始 CAM 以提供用于训练的伪标签。

训练管道分为以下步骤：

首先，将图像输入到CLIP图像编码器中进行图像特征。此外，前景和背景类标签用于构建文本提示，然后输入到 CLIP 文本编码器以生成相应的文本特征。请注意，这里图像和文本编码器在训练期间都被冻结。
然后，通过计算图像特征（池化后）和文本特征之间的距离来生成分类分数。基于分类分数，GradCAM [41] 用于生成初始 CAM。
此外，冻结CLIP图像编码器中每个变压器块最后一层的图像特征被输入到我们提出的解码器中进行最终的分割预测。
同时，来自解码器的中间特征图用于生成亲和图。然后，将亲和映射输入到我们提出的RFM中，该RFM具有冻结CLIP图像编码器每个块的多头注意映射。
最后，RFM 输出一个细化图来细化初始 CAM。在后处理之后，来自细化 CAM 的最终转换伪标签用于监督训练。

3.2. Frozen CLIP Feature Decoder

我们使用以ViT-B为骨干的冷冻CLIP编码器，在训练中没有进行优化。因此，如何设计一个将CLIP特征解释为语义特征的解码器成为一个核心挑战。我们提出了一种基于transformer架构的轻型解码器，以CLIP特征作为输入进行语义分割。、

具体来说，假设输入图像为 I ∈ R^3×H×W ,H 和 W 分别表示图像的高度和宽度。在通过CLIP图像编码器后，我们从编码器中每个transformer块的输出生成初始特征映射 $\left \{ F_{init}^{l} \right \}_{l=1}^{N}$ ，其中l表示块的索引。然后，对于每个特征图 $F_{init}^{l}$ ，使用单个 MLP 模块生成新的对应特征图 $F_{new}^{l}$ ：