概念
传统的目标检测、分割和跟踪是有监督的,当应用到现实世界场景时,将面临封闭类别定义、错误标注、标注成本昂贵的挑战。尤其是当新应用场景中的类别远多于训练集的类别,问题更加严重。
比如目标检测中的基准数据集COCO只有80个类别,当应用到其他数据上的检测任务上,就产生大量的标注成本。
之前的方法采用zero-shot learning,将检测器从可见类扩展到不可见类,大多采用词嵌入映射,构造不可见类的分类器。在推理阶段,仅仅根据这些预定义的词嵌入来识别新类别,缺乏对未知类视觉信息和关系的探索。不同于此,开放词汇学习可以利用视觉相关的语言数据,比如图像标题,作为一种辅助监督信息。许多开放词汇学习方法,利用了视觉语言模型。
将语言作为辅助的弱监督信息的理由:相比检测框或mask的标注成本低,更加容易获取;语言数据是基于词典空间的,更易扩展和泛化。例如,标题中的词,有可能包含新的类别名及属性。这种方式可以很好地提高模型的伸缩能力。

(a) 开集检测:只需要检测出新类别,并将其标注为"未知";
(b) 零样本:需要将新类别样本分类到具体的类;
(c) 开放词汇:借助语言词汇知识,分类新类别。

开放词汇检测和分割的结构:VLM-text,可以是CLIP或者ALIGN的text编码器。在训练的时候,只使用基类数据。
开放词汇目标检测方法分类
- 知识蒸馏:将VLM中的知识蒸馏到闭集目标检测器中,关注蒸馏loss设计、proposal生成;
- 区域文本预训练:使用大规模易获取的图文对来预训练一个更好的和通用的检测器,并对目标数据集进行微调;
- 用更平衡的数据进行训练:包括图像分类数据集、从图文数据中得到的伪标签、额外的数据,训练classification head;
- Prompting Modeling:采用不同的Prompting Modeling,更好地将VLM知识传递到检测器。
- 区域文本对齐:使用语言作为监督信号,取代b-box标注。
开放词汇分割方法分类
VLM-based:设计融合或对齐方法,以便更好地将VLM知识融合到现有的分割器中;
从标题中学习:使用额外的标题数据来定位视觉特征;
生成伪标签:充分挖掘VLM模型的潜力,生成更好的mask来训练分割模型;
非像素级别标注:结合VLM和不同的无监督方法来执行无监督mask生成或分割。
多任务联合:使用统一的检测和分割模型,在大规模易获取的text-region pairs对数据集上进行预训练;
去噪扩散模型:探索文本到图像扩散模型的特征表示或利用其生成能力来增强mask。
285

被折叠的 条评论
为什么被折叠?



