目录
原文地址
Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector
主要内容(待更新)
Abstract
本文研究了具有挑战性的跨域小样本目标检测(CD-FSOD),旨在研发在极少标签样本的新域仍精确的目标检测器。当基于transformer的开放集(open-set)检测器,如DE-ViT在传统小样本目标检测表现较好时,它在CD-FSOD上的推广仍不明确:(1)这样的开放集检测方法能够轻易地泛化到CD-FSOD吗?(2)如果不能,面对巨大的域差,模型应该怎样改进增强?为解答第一个问题,我们使用了风格、类间方差(ICV)和无法定义的边界(indefinable boundaries,IB)等方法来衡量域差。基于这些测量方法,建立新的基准(benchmark),名为CD-FSOD,用于评估目标检测方法。它揭示了大部分现有的方法都不能在跨域上泛化。从技术上讲,我们观察到效果变差和前面提出的测量方法:风格、ICV和IB有关。因此,提出了几个新的模块解决这些问题。一,可学习实例功能使初始固定实例域目标类别一致,增强特征独特性。二,实例重新赋权值模块将更高的重要性赋予低IB值的高质量实例。三,域提示器可以在不改变语义内容的情况下通过合成假想域弹性地将特征设置成不同样式。这些技术共同促进了跨域视觉Transformer(Cross-Domain Vision Transformer)到CD-FSOD(CD-ViTO)的发展,极大地提升了DE-ViT。实验数据证明了我们模型的有效性。数据集和代码可以从http://yuqianfu.com/CDFSOD-benchmark.获得。
1 Introduction
2 Related Works
3 CD-FSOD: Setup, Metrics, and Benchmark
3.1 Task Configurations
任务公式化。形式上,给出源数据集,记为 D S = { I , y } \mathcal{D}_S = \{I, y\} DS={
I,y}, y ∈ C S y \in \mathcal{C}_S y∈CS,分布为 P S \mathcal{P}_S PS;给出新的目标数据集,记为 D T = { I , y } \mathcal{D}_T = \{I, y\} DT={
I,y}, y ∈ C T y \in \mathcal{C}_T y∈CT,分布为 P T \mathcal{P}_T PT。和FSOD一样,CD-FSOD支持带标签数据,因为源类 C S \mathcal{C}_S CS有大量标签实例,但是 C T \mathcal{C}_T CT中每个新目标类的实例只有少量标签实例。所有目标类对于模型来说都是新的(没见过的),即 C S ∩ C T = ∅ \mathcal{C}_S \cap \mathcal{C}_T = \varnothing CS∩CT=∅。此外,不同于FSOD模型假设源数据的分布 P S \mathcal{P}_S PS与目标数据的分布 P S \mathcal{P}_S PS一致,CD-FSOD模型采取了更切实际的假设: P S ≠ P T \mathcal{P}_S \neq \mathcal{P}_T PS=PT。模型在 D S \mathcal{D}_S DS上训练,在 D T \mathcal{D}_T DT上测试。
N-way K-shot协议。为评估CD-FSOD模型的FSL(Few-Shot Learning,小样本学习)能力,采用N-way K-shot评估协议。具体来说,对于 C T \mathcal{C}_T CT中的每个新类,提供K个标签样本,称为支持集 S S S;其余无标签样本作为查询集 Q Q Q。数学形式为 ∣ S ∣ = N × K , N = ∣ C T ∣ |S| = N \times K, N = |\mathcal{C}_T| ∣S∣=N×K,N=∣CT∣。
训练策略。采用“预训练,微调,测试”的流水线,这在很多CD-FSL方法中使用过。该流水线具体为:先在源数据集 D S \mathcal{D}_S DS上训练,然后使用来自目标数据集 D T \mathcal{D}_T DT的少量的支持集 S S S微调可训练参数,最后在查询集 Q Q Q上测试。训练和微调的典型目标函数有边界框回归损失和类别损失。
3.2 Metrics for Domain Difference
我们意图通过以下3个方面评估数据集来解决困难与挑战。
风格。我们识别风格在各种域相关的任务如域适应、域泛化以及跨域小样本学习中的核心作用。常见的风格有:真实,卡通,素描等等。
类间方差(Inter-class variance, ICV)。ICV,学习任务中广泛使用的度量标准,衡量不同类之间的差异性。ICV值越高越容易识别语义标签。比较粗糙的数据集如COCO的ICV值较高,而细粒度的数据集的ICV值较低。
无法定义的边界(Indefinable Boundaries, IB)。IB,借自伪装目标检测领域,反映出目标物体与背景的混淆程度。高混淆度为目标检测器带来困难与挑战。例如,检测干净背景中的人比较简单直接,但识别珊瑚礁中的鱼就非常困难了。我们将ICV值分为大、中、小3个级别,IB值分为轻微、中度、重度3个级别。数据集的ICV和IB级别测量方法的相关细节请见追加材料。
3.3 Benchmark of Different Domains
基于风格、ICV和IB度量方法,我们仔细地审查并重构了现有的目标检测数据集,构建了基准(benchmark)CD-FSOD。该基准包括7个数据集。COCO,目标检测任务广泛使用的数据集,它提供了大量的物体类别,例如人、动物、交通工具以及各种日常生活物品,用作 D S \mathcal{D}_S DS。其他6个数据集包括ArTaxOr,Clipart1k,DIOR,DeepFish,NEUDET和UODD,用作 D T \mathcal{D}_T DT。这些数据集的部分样本以及对应的风格、ICV和IB级别如图2所示。注意,DeepFish只有一个类别,所以没有ICV值。更多关于数据集的细节请见追加材料。
4 Methodology
4.1 Overview of CD-ViTO
初步认识(Preliminary)。DE-ViT通过使用源于预训练大模型的可视化特征以及解决定位和分类任务的方式构建开放集检测器。基础DE-ViT的流水线如图3(a)的蓝色箭头所示。它主要包括一个预训练的DINOv2 ViT,一个区域候选网络( M R P N M_{RPN} MRPN),一个ROI(Region of Interest,感兴趣区域)对齐模块( M R O I M_{ROI} MROI),一个检测头( M D E T M_{DET} MDET),和一个一对多(one-vs-rest)分类器( M C L S M_{CLS} MCLS)。具体来说,给出查询图像 q q q和支持集 S S S,DE-ViT首先使用DINOv2提取实例特征 F i n s = { F i n s o b , F i n s b g } F_{ins} = \{F_{ins}^{ob}, F_{ins}^{bg}\} Fins={
Finsob,Finsbg},其中 F i n s o b F_{ins}^{ob} Finsob表示来自 S S S的前景目标的特征, F i n s b g F_{ins}^{bg} Finsbg表示背景的特征。然后 F i n s o b F_{ins}^{ob} Finsob对目标类别数取平均、 F i n s b g F_{ins}^{bg} Finsbg保持不变,得到类别原型 F p r o = { F p r o o b , F i n s b g } F_{pro} = \{F_{pro}^{ob}, F_{ins}^{bg}\} Fpro={
Fproob,Finsbg}。对于查询图像 q q q,DE-ViT对其使用DINOv2、 M R P N M_{RPN} MRPN和 M R O I M_{ROI} MROI生成候选区域 R q R_{q} Rq、视觉特征 F q F_q Fq和ROI特征 F q r o i F_{q_{roi}} Fqroi。接着, R q R_q Rq、 F q F_q Fq和 F p r o F_{pro} Fpro作为 M D E T M_{DET} MDET的输入,完成定位任务得到 L l o c \mathcal{L}_{loc} Lloc。在此期间, M C L S M_{CLS} MCLS基于 F q r o i F_{q_{roi}} Fqroi和 F p r o F_{pro} Fpro完成分类任务得到 L c l s \mathcal{L}_{cls} Lcls。通过 L l o c \mathcal{L}_{loc} Lloc和 L c l s \mathcal{L}_{cls} Lcls两个损失函数优化网络。
据说,DE-ViT不需要微调就能检测任何新类物体,但是实验表明它在跨域的目标数据集上不能泛化。这就是提升DE-ViT的跨域识别能力、形成新方法的动机。注意,DE-ViT的基本组件包括:DINOv2、 M R P N M_{RPN} MRPN、 M R O I M_{ROI} MROI、 M D E T M_{DET} MDET