ECCV 2022 | MaskCLIP: Extract Free Dense Labels from CLIP

ECCV 2022 | MaskCLIP: Extract Free Dense Labels from CLIP

目标任务:

  • 无需注释的语义分割(标准语义分割数据集、网络图像的Open Vocabulary Segmentation): 训练时不使用真值.
  • 零样本语义分割(Zero-Shot Semantic Segmentation): 某些类别没有标注, MaskCLIP 可以为其分配可靠的伪标签. 传统上, 零样本分割方法在一个类别子集上训练, 命名为seen类, 带有注释; 在推理过程中, 对seen和unseen都进行评估. 根据在训练过程中是否观察到未标记的类别, 设置可以分为归纳式 inductive (not observed) 和直推式 transductive (observed). 本文是后者.

主要目的

以往的研究主要是利用CLIP特征作为一种全局图像表示, 本文主要探索预训练的CLIP模型对于像素级预测任务的潜在优势.
CLIP的优势: 来自于复杂场景图像和对应的自然语言描述的联合学习过程.

  • 这一过程鼓励模型在特征中嵌入局部图像语义.
  • 确保学习到了开放词汇中的概念
  • 捕获丰富的上下文信息, 例如某些目标之间的关系和空间位置的先验等

主要工作

尝试最小化修改CLIP, 以用于像素级密集预测任务, 尤其是语义分割.

MaskCLIP


这一版本的模型不需要额外的训练和微调. 完全基于CLIP的预训练参数.

图像特征提取: 直接从CLIP图像编码器提取特征, 即_最后一个attention层中的value特征_. 这里图像编码器输出用作整个图像的综合表征, 作者们认为这是因为在每个空间位置计算的 已经捕获了丰富的局部语义响应, 他们与文本嵌入中的token很好地对应.

分割权重设置: 用于密集预测的最终的分类器本质上是1x1卷积, 这里使用固定的CLIP文本编码器获得文本embedding, 并将其作为分类器.

额外的无需训练的改进技术:

Key Smoothing: 在图像编码器最后一层的attention层中, 计算不同patch的key特征之间的相似度, 用于平滑预测. 这里认为Key可以看做是对patch自身的描述, 可以用于表示不同patch之间的相似度.

Prompt Denoising: 移除图像中不太可能存在的类别prompt(如果在所有空间位置的类别置信度小于0.5则移除对应的目标类别). 随着干扰因素的减少, 预测变得更加准确.

基于特定的失败实验得到的结论:

  • 保留原始 CLIP 特征空间中的视觉语言关联至关重要.
  • 避免对 CLIP 文本嵌入任何不必要的操纵. 这种方法在分割unseen类时会失败.

由于完全基于CLIP, 这一版本从而获得了如下好处:

  • 可以被用作分割注释工具, 为使用有限标签的分割方法提供的监督信号.
  • 由于保留了 CLIP 的视觉语言关联, 自然地具有分割开放词汇类别的能力, 以及由自由形式的短语描述的细粒度类别, 如 white car 和 red bus.
  • MaskCLIP 在某种程度上保留了 CLIP 本身对自然分布偏移和输入损坏的稳健性.

MaskCLIP+

MaskCLIP 完全依赖于CLIP, 所以其分割能力也因此受限. 为了放缩架构约束, 从而可以利用现有的更有效的结构, 例如DeepLab, 这里将 MaskCLIP 仅用于训练阶段, 作为一个更有效的注释工具来提供高质量的伪标签用于目标模型的训练. 由此引入了伪标签和自训练机制.

  • 伪标签策略: MaskCLIP的预测作为伪标签训练可训练的分割网络, 其分类器依然沿用MaskCLIP的分类器, 从而保持对于Open Vocabulary预测的能力.
  • 自训练机制: 实验发现, 迭代的一定程度后, 可训练的分割模型的性能会超过作为引导的MaskCLIP, 作者们之后会直接丢掉MaskCLIP, 模型自己生成伪标签.

实验性能

Annotation-Free Segmentation

Zero-Shot Segmentation

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值