CVPR 2023 | FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

CVPR 2023 | FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

目标任务: Open-Vocabulary Image Segmentation

  • semantic segmentation
  • instance segmentation
  • panoptic segmentation

主要目的

Open Vocabulary 学习范式将分割系统推广到更通用的应用场景. 现有的定制化的设计范式导致各种分割任务之间的碎片化, 从而阻碍了分割模型的统一性.
所以本文基于one-shot训练的形式, 提出了一种统一参数和结构的通用模型用于处理 Open Vocabulary 分割任务.
并引入了prompt来统一不同的任务和类别概念, 以适应不同的任务和场景.

Open Vocabulary Segmentation 旨在分割训练过程中未曾见过的目标类别. 现有的方法主要可以分为两个方向:

  • 将视觉特征映射到语义空间.
  • 与预训练模型进行跨模态对齐, 这利用了 CLIP 这样的预训练跨模态模型的零样本能力. 本文与此类工作关系密集.

主要工作

方法概览

两阶段方法:

  • 提取通用的mask proposal
  • 利用 CLIP 对第一阶段生成的 masks 进行 zero-shot 分类.

训练阶段:

  1. 训练进行在seen类别和对应标签上。
  2. 先使用Mask Proposal Extractor编码图像得到Visual Concepts 的Fv(NxD)和类别无关的Mask集合M(NxHxW)。对Mask使用特定的任务标签使用Focal和Dice损失监督。
  3. 每次迭代从三个任务标签(语义分割、实例分割和全精分割)中随机选择一个任务标签监督以避免跨任务训练带来的梯度冲突。
  4. 关于任务和类别的引入,这里设计了Adaptive Prompt Learning将task和category嵌入joint text embeddings Ft(CxD,C是Category数量)。Fv和Ft的consine similarity matching map表示所有class-agnositc mask各自所属预测类别的概率。这里则使用类别标签监督。

这里的问题:

  • 图像的embedding是如何从完整的空间特征上获得的?
  • 使用类别标签监督这一策略, 目的和方式是如何?

测试阶段:

  1. 使用训练好的proposal extractor,使用文本引导可以获得一系列二值masks。
  2. 利用预训练的CLIP图像编码器获得mask-level的编码。
  3. 计算mask表征和文本embedding的相似性。
  4. 根据adaptive prompt learning,输出任务相关的分割结果。
  5. 测试中使用的category set包含了seen和unseen类。

Adaptive Prompt Learning

  • 设计目的: 编码任意task和category到文本表征中.
  • 主要内容: 基于Prompt学习策略. 这里没有使用固定地将所有类别和任务名称放入相同的模板中, 而是自适应地将任务和类别文本转换为一组可学习的向量, 这些向量被拼接为text embedding以促进模型训练.
  • adaptive task prompt Pt: 可以打包多个学习任务到同一个框架, 并缓解不同任务训练的冲突问题. 具体操作就是将三个任务名称添加到可学习向量集合中, 整体构成task prompt, 并使用CLIP文本编码器编码Et.
  • adaptive category prompt Pc: 可以帮助模型兼容更多的类别, 扩展到unseen类别, 提升open-domain性能. 同样的, 训练中, 使用的可见类别和可学习向量组合得到adaptive category prompt, 通过CLIP编码Ec. 拼接Et和Ec获得联合的task-category的embedding Ft. 由于实际输入category可以使任意的, 所以Ft可以迁移到open vocabulary的unseen category.

Semantic Context Interaction Module

在Mask Proposal Extractor中获得的一般性的视觉表征忽略了类别和任务信息, 而这些信息可以为综合推理提供更可靠的线索.

为此作者们在text embedding Ft和extractor中的多尺度visual feature Fv(z)(z: layer index)之间放置了semantic context interaction module, 使用Ft来更新Fv, 从而强调关于给定文本类别的视觉特征.

这一module基于cross attention和一些线性层.

Test Time Prompt Tuning

这是一种test time adaptation的算法[Fully test-time adaptation by entropy minimization], 用于**refine the adaptive class prompt** during testing, 从而提升对于unseen category的跨模态对齐.

  • 使用CLIP图像编码器对使用预测的Mask图mask操作后的图像编码.
  • 计算与Nu个unseen classes的cosine similarity score.
  • 计算每个样本对应的熵值:

  • 选择熵小于阈值τ的queries, 可得到K个对应的样本编码.
  • 对筛选得到的得分图计算熵损失, 用于优化adaptive class prompt的参数.

实验性能

实验中引入了一个特殊的变体, 即"CLIP", 直接使用预训练的CLIP的文本和视觉编码器匹配结果.

消融分析

单一数据集

跨数据集

可视化

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
"YOLO:统一、实时的目标检测"简称YOLO,是一种深度学习算法,用于实时目标检测。它的核心思想是将目标检测问题转化为单个统一的回归问题,使得只需一次前向传播即可直接预测出目标的位置和类别。 相比于传统的目标检测方法,YOLO具有显著的优势。首先,YOLO采用了统一的网络结构,端到端地完成整个目标检测过程。这意味着不需要将图像分割成多个部分进行处理,减少了冗余计算,提高了计算效率。 其次,YOLO实时性能出色。它将目标检测任务与边界框回归深度学习模型相结合,使得可以在一次前向传播中同时预测出多个目标的位置和类别。因此,YOLO在速度上远远超过了传统的基于滑窗的目标检测方法。 此外,YOLO还采用了多尺度的特征图来检测不同大小的目标。通过在不同层级的特征图上进行预测,YOLO可以有效地捕捉目标的多尺度信息,并提高了目标检测的准确性。 然而,YOLO也存在一些局限性。由于采用了统一的网络结构,YOLO对小尺寸的目标检测相对较差。此外,当目标之间存在重叠或者遮挡时,YOLO可能会出现漏检或者虚警的情况。 总而言之,YOLO是一种统一、实时的目标检测算法,具有高效、准确的特点。它在图像处理、智能安防、自动驾驶等领域具有广泛的应用前景。然而,为了提升其性能,在处理小尺寸目标和目标重叠等复杂场景时,仍需要不断的研究和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值