开放词汇学习综述

概念

传统的目标检测、分割和跟踪是有监督的,当应用到现实世界场景时,将面临封闭类别定义、错误标注、标注成本昂贵的挑战。尤其是当新应用场景中的类别远多于训练集的类别,问题更加严重。

比如目标检测中的基准数据集COCO只有80个类别,当应用到其他数据上的检测任务上,就产生大量的标注成本。

之前的方法采用zero-shot learning,将检测器从可见类扩展到不可见类,大多采用词嵌入映射,构造不可见类的分类器。在推理阶段,仅仅根据这些预定义的词嵌入来识别新类别,缺乏对未知类视觉信息和关系的探索。不同于此,开放词汇学习可以利用视觉相关的语言数据,比如图像标题,作为一种辅助监督信息。许多开放词汇学习方法,利用了视觉语言模型。

将语言作为辅助的弱监督信息的理由:相比检测框或mask的标注成本低,更加容易获取;语言数据是基于词典空间的,更易扩展和泛化。例如,标题中的词,有可能包含新的类别名及属性。这种方式可以很好地提高模型的伸缩能力。

(a) 开集检测:只需要检测出新类别,并将其标注为"未知";

(b) 零样本:需要将新类别样本分类到具体的类;

(c) 开放词汇:借助语言词汇知识,分类新类别。

开放词汇检测和分割的结构:VLM-text,可以是CLIP或者ALIGN的text编码器。在训练的时候,只使用基类数据。

开放词汇目标检测方法分类

  1. 知识蒸馏:将VLM中的知识蒸馏到闭集目标检测器中,关注蒸馏loss设计、proposal生成;
  2. 区域文本预训练:使用大规模易获取的图文对来预训练一个更好的和通用的检测器,并对目标数据集进行微调;
  3. 用更平衡的数据进行训练:包括图像分类数据集、从图文数据中得到的伪标签、额外的数据,训练classification head;
  4. Prompting Modeling:采用不同的Prompting Modeling,更好地将VLM知识传递到检测器。
  5. 区域文本对齐:使用语言作为监督信号,取代b-box标注。

开放词汇分割方法分类

VLM-based:设计融合或对齐方法,以便更好地将VLM知识融合到现有的分割器中;

从标题中学习:使用额外的标题数据来定位视觉特征;

生成伪标签:充分挖掘VLM模型的潜力,生成更好的mask来训练分割模型;

非像素级别标注:结合VLM和不同的无监督方法来执行无监督mask生成或分割。

多任务联合:使用统一的检测和分割模型,在大规模易获取的text-region pairs对数据集上进行预训练;

去噪扩散模型:探索文本到图像扩散模型的特征表示或利用其生成能力来增强mask。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值