DEEP DOMAIN ADAPTIVE OBJECT DETECTION: A SURVEY

参考 DEEP DOMAIN ADAPTIVE OBJECT DETECTION: A SURVEY - 云+社区 - 腾讯云

目录

摘要:

1、简介

2、深度域适配目标检测

2.1、基于不符的方法

2.2、基于对抗学习的深度域适配目标检测方法

2.3、基于重建的深度域适配目标检测

2.4、混合深度域适配目标检测

3、结论和将来研究指导


摘要:

基于深度学习的目标检测获得了很大的方法。这些方法基本上假定可以获得大规模的训练标签,训练和测试数据服从理想的分布。然而这两个假设在实际中通常不满足。深度域适配目标检测(DDAOD)做为一种新的学习范式开始出现,来解决上述问题。这篇文章旨在对最先进的域适配目标检测方法进行综述。首先,我们简要介绍域适配的概念。第二,深度域适配检测器可以分为五类,并提供了每个类别中有代表性的方法的详细说明。最后给出了将来的研究趋势。

1、简介

目标检测是计算机视觉的基础和挑战性任务,支持自动驾驶、机器人视觉和人机交互等许多应用。 最先进的基于DL的目标检测方法通常假设训练数据和测试数据都来自相同的分布。 这些检测模型严重依赖于大量标注的训练样本。 在实践中,收集带注释的数据非常昂贵,有时是不可能的。 深域适应已经成为一种新的学习范式来应对上述挑战。  

随着深度域自适应(deep domain adaptive, DDA)在图像分类和语义分割等计算机视觉任务中取得的成功,利用深度域自适应(deep domain adaptive, DDA)有望提高目标检测的性能。 近年来,人们对ddad在目标检测中的应用进行了深入的研究,并提出了一些DDAOD
方法。  

目前已有一些研究集中在基于领域自适应和基于深度学习的目标检测方面,而对基于深度学习的目标检测的研究较少。 本文的目的是对ddadod方法的最新进展进行综述,并对未来的研究趋势进行展望。  

2、深度域适配目标检测

我们使用很狭义的深度域适配概念。深度域适配时基于深度学习结构用来进行深度深度适配,通过反向传播能对深度结构产生直接的影响。深度域适配目标检测旨在学习一个鲁棒的目标检测,使用源域中丰富的标签数据,但是在目标域中标签未知或者标签较少,学习过程依赖于深度域适配模型或者DDA中使用的准则。源域和目标域之间的分布不相似或者完全不同。训练的目标检测器期望在目标域中效果很好。

这节中我们首先介绍若干个因子,用于后续的深度域适配目标检测,然后回顾了深度域适配的相关方法。分类因子如下:

  • 强调域漂移的机制:有四种类型的机制强调域漂移:基于不符、基于对抗、基于重建和混合方法。
  • 一步和多步适配方法:当源域和目标域直接相关的时候,迁移知识能一步完成。两个域中有很小的交叠,一系列中间桥用来连接看起来无关的域,并且通过桥执行一步深度域适配,称为多步域适配。
  • 目标域的标签数据:考虑目标域标签数据的时候,我们可以将域适配分为:全监督、半监督、弱监督、小样本和无监督。
  • 基础检测器:域适配方法通常基于已经存在的好的检测器,例如Faster R-CNN、YOLO、SSD等
  • 是否开源:这个因素指示了方法的代码是否可以在网上获得。如果是开源的将提供链接。

根据上述列出的分类因子,首先将深度域适配目标检测方法分类成如表1所示,然后在接下来的章节中回顾它们。

A、基于不符的方法

基于不符的深度域适配目标检测方法,基于微调深度网络来减少域漂移,基于有标签的检测模型或者无标记的目标数据。

Khodabandeh等人提出了鲁棒性的学习方法来进行与适配目标检测。作者将问题表示为训练数据有很多噪声标签。基于噪声目标bbox集,通过仅仅在源域上训练的模型,最终的检测模型是训练好的。

为了解决合成图像到真实图像的域漂移,Cai等人提出了先进的平均教师范式来应用到跨域目标检测中,并且提出了目标相关的平均老师。这些方法改造了Faster R-CNN下的平均教师,通过将目标相关集成到连续损失的度量中。

Cao等人给出了一个自动标注框架来迭代的标注视觉和热图中的行人实例。标注框架由迭代标注,临时跟踪和标签融合组成。为了学习鲁棒性行人检测的多频谱特征,获得的标注送入两个主流的区域建议网络。

B、基于对抗学习的深度域适配目标检测方法

基于对抗学习的深度域适配目标检测方法利用域鉴别器,并且执行对抗训练使源域和目标域进行域融合。与鉴别器分类一个数据点来自源域还是目标域。

域适配Faster R-CNN是第一个处理目标检测中的域适配问题的方法。作者使用H散度来衡量源域和目标域分布之间的差别。设计了三个适配组件,例如图像级适配、实例级适配和一致性检查。

由检测的局部性质启发,Zhu等人提出一个区域级适配框架。为了有效和鲁棒的解决看哪和如何合并的问题,设计了域挖掘和调整区域级对齐的组件。

Wang等人提出了一个小样本适配Faster R-CNN的框架,FAFRCNN。由两个适配模块组成,例如图像级和实例级,加上特征匹配机制和稳定适配的强正则化。

Saito等人提出了一种无监督域适配目标检测方法,组合了弱全局对齐和强局部对齐,称为强弱域对齐模型。

He等人提出了多对抗Faster R-CNN模型,用来解决目标的无限制问题。方法由两个模块组成,例如等级域特征对齐和连接建议域特征对齐。

Shen等人提出了一个基于堆叠补充特征的梯度分离方法,用来进行无监督域适配目标检测。这个方法多补充损失来进行更好的优化,并且提出梯度分离训练来学习更多的区别表示。

Zhang提出了合成到真实的域适配方法用来进行目标实例分割。有三种不同的特征适配模块,基于特征适配的全局级、局部级实例特征适配模块和微妙级掩膜特征适配模块。

Zhuang提出了图像级全对齐网络来处理无监督域适配目标检测。有两种对齐模块:图像级对齐对齐多尺度特征,通过训练层级嵌套的对抗域,全对齐开发一个深度语义对齐信息,并且精心实例级表示来建立类别的域之间的强关联关系。

为了协调自适应目标探测器的可移植性和可分辨性,陈志强等。 [15]提出了一种分层可转移性标定网络(HTCN),该网络分层(局部区域/图像/实例)标定特征表征的可转移性。 通过对抗性训练实现不同层次的对准,并将三个领域鉴别器包含在HTCN结构中。  

C、基于重建的深度域适配目标检测

基于重建的深度域适配目标检测器假定源域和目标域样本的重建有助于提升域适配目标检测的性能。

Arruda使用无监督的图像到图像解译的方法提出了跨域车辆检测方法。CycleGAN用来探究人工数据集的产生(假数据集),通过将图像从白天域翻译到晚上域。最终检测模型在假数据集上进行,标签从源域中得来。

Lin等人介绍了一个多模型结构连续的图像到图像翻译模型来实现车辆检测的域适配。图像翻译模型产生不同和结构保持的翻译图像,通过复杂的域。

Guo给出了一个在红外热图中进行行人检测的方法,标签是有限的。为了解决红外热图和彩色图像之间的域漂移,作者提出学习成对的图像变换来将两个形式的图像进行转换,和一个行人检测器一起。

Devaguptapu提出利用图像到图像的翻译框架来产生和给定红外图像相同的伪RGB图像,然后对红外热图像采用一个多模型目标检测框架。

Liu提出了一个无监督图像翻译框架,将图像从红外翻译到可视图像,基于GAN。红外到可视算法指的是IR2VI。目标检测在标注的可视图像上进行,应用到翻译的伪视觉图像上。

D、混合深度域适配目标检测

混合的深度域适配目标检测器使用提前定义的机制,同时获得更好的性能。

Inoue等人提出了新的任务,跨域弱监督目标检测,在这个方法中图像级的标注可以在目标域中获得。提出了两步进步的域适配技巧。这种方法用两种手工和自动产生样本的方法来微调检测器。基于图像到图像翻译的CycleGAN用来人工地产生样本,同时通过伪标签来自动产生样本。

Shan 给出了基于像素和特征级的域适配检测器,方法由两个模块组成,一个是基于CycleGAN的像素级域适配器和基于Faster R-CNN的特征级适配器。两个模块能集成到一起并且以端对端的方式训练。

为了同时缓解像素级的不完美迁移和特征级适配的源域偏向问题,Kim 等人介绍了一个目标检测的域适配表示范式。由源域多样化阶段和多域不变表示学习阶段构成。

Kim等人介绍了一个域适配的一阶段目标检测方法,由弱自训练方法和对抗背景分数正则化组成。若自监督训练能减少不正确伪标签的不利影响,同时对抗背景分数正则化减少对目标背景提取区别特征时的域漂移。

Rodriguez等人提出了一个两步域适配检测器,基于类型迁移的底层适配和鲁棒伪标签的高层适配。

Hsu等人提出了进步的域适配目标检测器。通过迁移源域图像来模仿目标域图像,构造了一个中间域。为了解决域漂移问题,作者采用对抗学习来合并特征层上的分布,并且采用一个有权重的损失来处理中间域的不平衡质量。

 [28]提出了一种用于跨域两阶段目标检测的从粗到细特征自适应方法。 它包括两个自适应模块,即基于注意的区域转移(ART)和基于原型的语义对齐(PSA)。 ART提取前景区域并采用注意机制,通过多层对抗学习对其特征分布进行对齐。 PSA利用原型在语义层对前景进行条件分布对齐。 根据所进行的实验,得出了最先进的结果。  

E、其他DDAOD

其他的DDAOD方法则不能归为上述四类。 他们使用其他机制,如图诱导原型对齐[29],类别正则化[30]来寻求域对齐。  

针对跨域检测任务中存在的源域和目标域在局部实例级上对齐和类不平衡等问题,Xu等人提出了一种解决方法。 [29]提出了图形诱导原型对齐(GPA)框架,并将其嵌入到两级检测器Faster R-CNN中。 实验结果表明,GPA框架在很大程度上优于现有的方法。  

考虑到以往的工作仍然忽略了关键图像区域和重要实例的跨域匹配,Xu等。 [30]提出一个分类正规化框架。 它可以作为即插即用组件用于许多域自适应更快的R-CNN方法。 设计了两个正则化模块。 第一个模块利用分类CNN的弱定位能力,第二个模块利用图像级和实例级预测的分类一致性。  

3、结论和将来研究指导

这篇文章调查了27个深度域适配目标检测方法。所综述的方法根据我们给出的5个类别因子来进行总结和分类。在不同域适配目标检测任务上的性能也进行了比较。可以发现混合方法效果最好,基于对抗的方法其次,其他的方法效果最不好。对抗训练融合更多适配机制效果更好。尽管各种各样的深度域适配目标检测方法在最近几年被提出,在有标签的数据集上依然和标准性能有很大的差距。因此有更多工作需要做。

一个很有前途的方法是组合不同类别适配方法,例如[23],将类型迁移和鲁棒性伪标签结合起来,来达到更好的性能。一个可能的组合方式是对抗训练一个检测器来产生目标样本的伪标签。

另一个有希望的方法是探索检测的本身性能。例如,产生和目标域实例级样本相似的实例级样本,并且合成训练样本来进行检测,使用产生的实例级patch和目标域的背景图像。

第三,大多数综述工作处理统一的深度域适配目标检测器,因为较大的与差距,深度域适配目标检测器更加具有挑战,因此执行有大量标注的可视域到很难获得标签的热红外域的研究很有意义。在这个方向上具有高影响力的作品是值得期待的。

最后,使用最先进的域适配分类模型,并且嵌入到检测框架,研究从令的域适配也是一个很有前途的方向。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值