ECCV 2024 | 跨域小样本目标检测CD-FSOD新数据集和CD-ViTO新方法

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

d099fdf39a86048bdb25dc3ca7b5a84a.png

51c33b10d254d9587110a2376e5c0a91.png

作者单位:复旦大学,苏黎世联邦理工学院,INSAIT,东南大学,BOE科技

论文链接:https://arxiv.org/pdf/2402.03094

网页链接:http://yuqianfu.com/CDFSOD-benchmark/

中稿会议:ECCV 2024

摘要:

这篇文章针对目前大多数跨域小样本学习方法均集中于研究分类任务而忽略了目标检测,因而提出研究跨域小样本物体检测任务, 文章中提出了一个用于算法评测的CD-FSOD数据集及用于衡量领域差异的style、ICV、IB数据集指标,对现有目标检测算法进行了广泛实验评估,以及基于优化一个在经典FSOD上达到SOTA的开放域物体检测器得到的CD-ViTO新方法。   

1 研究目的

跨域小样本学习任务(Cross-Domain Few-Shot Learning,CD-FSL)解决的是源域与目标域存在领域差异情况下的小样本学习任务,即集合了小样本学习与跨域两个任务的难点问题:1)源域S与目标域T类别集合完全不同,且目标域T中的类别仅存在少量标注样本,例如1shot,5shot;2)S与T属于两个不同领域,例如从自然图像迁移到医疗图像。 

大多数的现有方法均集中于研究分类问题,即Cross-Domain Few-Shot Classification, 但是同样很重要的物体检测任务(Object Detection,OD)却很少被研究,这促使了我们想要探究OD问题在跨域小样本的情况下是否也会遭遇挑战,以及是否会存在跟分类任务表现出不同的特性。

与CD-FSL是FSL在跨域下的分支类似,跨域小样本物体检测(Cross-Domain Few-Shot Object Detection,CD-FSOD)同样也可以堪称是FSOD在跨域下的分支任务,所以我们先从经典的FSOD开始分析:大多数的FSOD方法都可以被粗略地划分为1)meta-learning based,典型方法包括Meta-RCNN;2)finetuning based,例如TFA,FSCE,DeFRCN,然而近期一个名为DE-ViT的开放域方法通过基于DINOv2构建物体检测器同时在FSOD以及开放域物体检测(OVD)上都达到了SOTA的效果,性能明显高于其他的FSOD方法,因此这引发了我们思考:

1. 现有的FSOD方法,尤其是SOTA的DE-ViT open-set detector能不能在跨域的情况下仍表现优异?

2. 如果不能,什么是难点问题,以及我们是否有办法能够提升open-set detector的性能?

我们先用以下的图来揭示一下问题的答案:

9e02ce19ddeb088f5d98c81c401466db.png

1. 左图:哪怕是SOTA的open-set detector DE-ViT (绿色星形) 在跨域泛化的情况下性能也会出现急剧下降;

2. 左图:我们基于DE-ViT搭建的CD-ViTO方法 (橙色星形) 能够使原本性能下降的模型得以进一步提升。

3. 右图: 相比于in-domain的小样本物体检测,跨域小样本物体检测通常会面临三个问题:1)目标域T的类间距离(ICV)通常较少;2)目标域的图像可能会出现前景与背景边界模糊(Indifinable Boundary,IB);3)目标域T得图像相交于源域S而言视觉风格(style)发生变化。

ICV、IB、Style也成为了我们用于衡量不同数据集在跨域下的特性。

2 主要贡献

首先总结一下我们在解答两个问题的过程中的主要工作及贡献:

2.1 Benchmark, Metrics, and Extensive study:

为了回答问题1,即研究现有的物体检测器能不能泛化至跨域小样本物体检测任务中,

- 我们研究了CD-FSOD任务下的三个影响跨域的数据集特性:Style, ICV, IB;

- 我们提出了一个CD-FSOD算法评测数据集,该数据集包含多样的style,ICV,IB;

- 我们对现有物体检测器进行了广泛研究,揭示了 CD-FSOD 带来的挑战。

2.2 New CD-ViTO Method:

为了回答问题2,即进一步提升基础DE-ViT在CD-FSOD下的性能,我们提出了一个新的CD-ViTO方法,该方法提出三个新的模块以解决跨域下的small ICV, indefinable boundary, 以及changing styles问题。

- Learnable Instance Features:通过将初始固定的图像特征与目标类别之间进行对齐,通过增强特征可分辨程度来解决目标域ICV距离小的问题 。

- Instance Reweighting Module: 通过给不同的图像设置不同的权重,使得严具有轻微 IB 的高质量实例分配更高的重要性,从而缓解显著的 IB 问题;

- Domain Prompter:通过合成虚拟领域而不改变语义内容来鼓励模型提升对不同style的鲁棒性。         

3 CD-FSOD数据集 & Extensive Study

3.1 CD-FSOD数据集

如下图所示为我们构建的CD-FSOD数据集,该数据集以MS-COCO作为源域S,以ArTaxOr、Clipart1K,DIOR,DeepFish,NEU-DET,UODD作为六个不同的目标域T;

我们也分析并在图中标注了每个数据集的Style,ICV,IB特征,每个数据与数据之间也展现了不同的数据集特性。

所有的数据集都整理成了统一的格式,并提供1shot、5shot、10shot用于模型测评。

92a45e2320285b82109ffbc8ff8755b4.png

数据集更多的介绍,比如数据类别数,样本数等可以在论文中找到细节。

3.2 Extensive Study

我们对现有的四类目标检测器进行了实验,包括:

1) 典型的FSOD方法:Meta-RCNN、TFA、FSCE、DeFRCN

2) 现有的CD-FSOD方法:Distill-cdfsod

3) 基于ViT的方法:ViTDeT-FT

4) 开放域方法:Detic(-FT), DE-ViT(-FT) (DE-ViT仅利用视觉信息,Deti则依赖视觉-文本相似性)

其中“-FT”表示我们用目标域T的少量样本对方法进行了微调。 

de88571f5c331b3fda9f9122925ecac6.png

我们结合实验结果对这个任务以及相关方法展开了详细的分析,主要有以下这几点结论:

1.  现有FSOD方法可以泛化到跨域问题吗?A:不能

2.  基于ViT的方法会比基于ResNet的方法好吗?A:看情况

3. 开放域方法能够直接用于应对CD-FSOD问题?A:不能

4. 开放域方法的性能可以进一步得到提升吗?A:可以

5. 不同的开放域方法是否呈现不同的特性?A:是的

6. Style,ICV,IB是如何影响domain gap的?A:在分类里影响巨大的style对于OD任务而言影响相对较少;ICV有较大影响但是可以被有效缓解;IB是这三者中最具挑战的。

(详细的分析就不在这里展开了,感兴趣的朋友可以去看看文章

4 CD-ViTO 方法 & 主要实验        

我们方法的整体框架结构图如下所示:

5cabd2a8c75d54b42a228e47a7b0e7c3.png

整体来看,我们的方法是基于DE-ViT搭建的(图中蓝色块), 我们首先将DE-ViT方法简化为图中所示的几个模块主要包括Pretrained DINOv2 ViT, RPN,ROI Align, Instance Features, Dection Head,One-vs-Rest Classification Head。DE-ViT的核心想法是利用DINOv2提取出来的视觉特征对query image boxes与support images中所构建出来的类别prototypes进行比较,从来进行分类和定位。

基于DE-ViT方法,我们提出了三个新的模块(图中黄色块)以及finetune(图中火苗)以搭建我们的CD-ViTO。如contribution章节所描述,每个模块都各自对应解决CD-FSOD下存在的一个挑战。

4.1 Learnable Instance Features

原本的DE-ViT首先利用DINOv2获取instance features,然后简单对同类特征求和的方式得到support的class prototypes。然而在面对目标域类别之间可能很相似的情况,直接使用这种预训练的模型所提取出的特征会导致难以区分不同类别。

因此我们提出将原本固定的特征设置为可学习参数,并通过结合finetune方法将其显式地映射到目标域类别中,以此增加不同类之间的特征差异程度,缓解ICV问题。

我们对比了使用该模块前后的类间cosine相似性,结果说明我们的模块可以降低类间相似度,从而提升ICV。

035b68470ea03a02f9b87510292afac7.png

4.2 Instance Reweighting Module

图像模糊边界的问题本身很难得到解决,这个模块的主要想法是通过学习可调整的权重给不同质量的样本赋不同的权重,使得严重IB的图像被抑制,没有或者轻微IB地图像被鼓励。

模块的设计如框架图右上所示,主要包含一个可学习的MLP。同样的,我们也对该模块做了可视化分析,我们按照所分配到的权重从高到低给图像排序,得到如下结果。从图中可见,前后景边缘模糊的图像得到的权重要低于边缘清晰的图像。         

9348dad8be2ad69c1dc2cd194b5621b3.png             

4.3 Domain Prompter

Domain Prompter的设计主要是希望方法能够对不同的domain鲁棒,如框架图右下所示,在原有object prototype的基础上,我们额外引入数量为$N_{dom}$维度为D(等于prototype维度)的虚拟domains变量作为可学习参数。  通过学习和利用这些domains,我们希望最终达到:

1) 不同domain之间相互远离,增加多样性 (domain diversity loss)

2) 添加不同domain至同一类别prototype所生成得到的两个变种仍为正样本,添加不同domain至不同类别prototype生成得到的两个变种为负样本 (prototype consistency loss)

两个loss与finetuning所产生的loss叠加使用进行网络的整体训练。如下T-SNE可视化图说明我们学习到的domains之间相互远离;叠加不用domains至class prototype不影响语义变化。         

c5f45747b6f51608560616e8584627db.png

Finetuning:作为简单但有效的迁移学习方法,我们也采用了在目标域T上对模型进行微调的思路,文章附录部分有提供不同finetune策略的不同性能表现,我们主方法里采用的是仅微调两个头部。        

4.4 主要实验

我们在1/5/10shot上与其他方法进行了对比实验,实验说明经过优化后的CD-ViTO方法在大多数情况下都优于其他的对比方法,达到了对基本DE-ViT的有效提升,构建了这个任务的新SOTA。

45e1ebaee79557070f8d51782fa8eeb7.png

文章所有数据集、代码、以及相关资源都已开源,也有相应的讲解视频,感谢大家关注。

- code:

https://github.com/lovelyqian/CDFSOD-benchmark

- 中文讲解视频:

https://www.bilibili.com/video/BV11etbenET7/?spm_id_from=333.999.0.0   

- 英文讲解视频:

https://www.bilibili.com/video/BV17v4UetEdF/?vd_source=668a0bb77d7d7b855bde68ecea1232e7#reply113142138936707

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
<think>好的,我现在需要帮助用户了解目标检测的技术实现或解决方案。首先,我应该回顾用户提供的引用内容,看看有哪些关键点可以提取。用户给出了四个引用,分别涉及不同的方法,比如MS-DAYOLO、TDD框架SSDA-YOLO。 首先,目标检测的主要问题在于偏移,也就是源目标的数据分布不同,导致模型在目标上性能下降。根据引用中的信息,常见的解决方案包括适应技术、双分支蒸馏、半监督学习以及数据增强。 接下来,我需要将这些方法组织成结构化的回答,确保符合用户要求的格式,比如分点说明,每个部分都引用对应的文献。同时,还要生成相关问题,帮助用户进一步探索。 需要注意的是,用户要求使用中文回答,所有数学表达式要用$...$格式,独立公式用$$...$$。不过当前问题主要涉及技术方法,可能数学内容不多,但如果有的话要正确应用LaTeX。 然后,检查每个引用的内容是否准确对应到解决方案中。例如,引用[2]提到的MS-DAYOLO使用多尺度适应,引用[3]的双分支蒸馏,引用[4]的半监督方法。需要确保每个技术点都有对应的引用标注。 最后,生成的相关问题应该围绕用户可能感兴趣的后续方向,比如性能比较、实施挑战、评估指标等。确保问题具有引导性,帮助用户深入理解。</think>### 目标检测技术实现与解决方案 目标检测旨在解决模型在**源**(有标注数据)**目标**(无标注或标注稀缺)之间因数据分布差异导致的性能下降问题。以下是核心技术与实现方案: --- #### 1. **适应(Domain Adaptation)** - **核心思想**:通过减少源与目标的分布差异,提升模型泛化能力。 - **技术实现**: - **多尺度特征对齐**:如**MS-DAYOLO**[^2]通过多尺度网络结构对齐不同层级特征,增强模型对目标复杂环境(如雾天)的适应能力。 - **对抗训练**:引入分类器与特征生成器对抗学习,迫使网络生成不变特征[^3]。 - **数学表达**:对抗损失通常定义为: $$ \mathcal{L}_{adv} = \mathbb{E}_{x_s}[\log D(F(x_s))] + \mathbb{E}_{x_t}[\log(1 - D(F(x_t)))] $$ 其中$F$为特征提取器,$D$为判别器。 --- #### 2. **双分支蒸馏(Dual Branch Distillation)** - **核心思想**:通过师生框架联合优化源目标的检测分支,利用知识蒸馏传递知识[^3]。 - **实现步骤**: 1. **教师分支**:在源上训练,生成伪标签。 2. **学生分支**:在目标上学习,通过蒸馏损失$\mathcal{L}_{distill}$对齐教师分支的特征与预测结果。 - **优势**:减少漂移影响,提升目标监督信号质量[^3]。 --- #### 3. **半监督学习(Semi-supervised Learning)** - **代表方法**:如**SSDA-YOLO**[^4]结合少量标注数据大量无标注数据,通过以下策略优化: - **自训练(Self-training)**:用模型预测结果作为伪标签迭代优化。 - **一致性正则化**:对同一图像施加不同数据增强,强制模型输出一致结果。 - **公式化**:总损失函数为: $$ \mathcal{L}_{total} = \mathcal{L}_{sup} + \lambda \mathcal{L}_{unsup} $$ 其中$\lambda$为平衡系数,$\mathcal{L}_{sup}$为监督损失,$\mathcal{L}_{unsup}$为无监督损失。 --- #### 4. **数据增强与风格迁移** - **方法**:通过生成对抗网络(GAN)将源数据风格迁移至目标,例如将晴天图像转换为雾天图像。 - **典型应用**:Cityscapes → Foggy Cityscapes检测中,风格迁移可提升模型鲁棒性。 --- #### 5. **模型架构优化** - **多尺度设计**:如MS-DAYOLO基于YOLOv4的多尺度检测头,增强小目标检测能力[^2]。 - **轻量化改进**:针对实时性需求,可压缩模型参数或采用蒸馏后的轻量学生模型[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值