综述|重邮高新波等最新《少样本目标检测算法》

来源丨专知

转载自极市平台,文章仅用于学术分享。

导读

 

近年来,一些研究探讨了如何在不需要目标域监督的情况下,在额外数据集中使用隐式线索来帮助少样本检测器完善鲁棒任务概念。本综述从当前的经典和最新研究成果,以及未来的研究展望,从多方面进行了综述。 

974882fd9e7111e861c73f9e5a76fb9a.png

论文链接:https://arxiv.org/abs/2111.00201

摘要

由于现实世界数据的长尾分布和削减数据收集和注释成本的迫切需求,学习适应具有少量标记数据的新类的少样本目标检测是一个迫切和长期的问题。近年来,一些研究探讨了如何在不需要目标域监督的情况下,在额外数据集中使用隐式线索来帮助少样本检测器完善鲁棒任务概念。综述从当前的经典和最新研究成果,以及未来的研究展望,从多方面进行了综述。特别地,我们首先提出了基于数据的训练数据分类和在训练阶段访问的相应监督形式。按照这种分类法,我们对正式定义、主要挑战、基准数据集、评估指标和学习策略进行了重要的回顾。此外,我们还详细研究了如何相互作用的目标检测方法,以系统地发展这一问题。最后,总结了少样本目标检测的研究现状及未来的研究方向。

引言

给定一组类别,目标检测旨在检测图像或视频中这些类的所有实例。目标检测作为计算机视觉的基础任务,得到了广泛的关注,并被应用到众多的下游应用中,如智能监控[1]、增强现实[2]、自动驾驶[3]等。

此前,传统方法试图利用手工特征来穷尽地搜索[4]-[7]目标,需要大量的先验知识来手工设计适合特殊目标检测的特征(如人脸、行人和交通标志)。由于Alexnet在2012年[8]在ImageNet上的出色表现,深度学习在计算机视觉界开始受到越来越多的关注,它可以自动从训练数据中挖掘隐含任务概念,与传统方法相比,获得巨大的性能收益。特别是近年来,深度学习方法在目标检测[9]-[12]方面取得了重大突破。为了提取鲁棒概念,深度学习模型倾向于获取丰富的标记数据进行训练。然而,对于一个特定的任务,收集大量标记良好的数据并不总是容易的:(1)数据准备相当耗时和费力,标记一个实例[13]大约需要10秒;(2)由于真实世界数据的固有长尾分布,一些罕见的实例出现的频率非常低,例如濒危动物。具体来说,日常应用迫切需要通过“少样本学习”来削减成本,而通用技术和策略可能容易在少样本场景下将噪音捕捉为普通概念(如过拟合)或分歧(如不拟合)。然而,当显示小数据和相关标签时,即使是孩子也可以快速提取特定于任务的概念。因此,它鼓励我们发展少样本目标检测(FSOD),不仅需要尽可能少的监督,而且应该优于/接近多样本探测器,如图1所示。特别是严格限制监督总量,不限制监督形式。在这里,我们主要讨论三种主要的少样本头设置,如Section I-B所示。

d94a0ed596d3e8b631731ae5211f917a.png

近年来,少样本学习取得了几个关键性的突破,特别是在少样本分类(FSC)[14] -[27]。受FSC近期进展的启发,早期的工作将FSOD视为FSC问题,首先利用区域提议算法(如SS[28])来生成初步感兴趣区域(RoI),并对每个RoI进行分类,无论是否包含目标。但是,与FSC不同的是,FSOD更加复杂,不仅需要对每个RoI进行分类,还需要对每个RoI进行精确的定位。孤立地看待两个互补的子任务是不可行的。由于过多的低质量和模糊的建议可能会混淆元分类器,早期的工作相对来说精度较低。后续工作开始采用一种新的方案,同时对两个子任务的少样本检测器进行优化,以获得高质量的方案。特别是,[29]几种基于度量的方法为边界框回归器提供了特定于类别的概念(例如,宽高比和目标的大小)。此外,现有的方法仍然依赖于现有的检测器,如R-CNN、YOLO和SSD变体[9]-[12]、[30]、[31],它们最初是为了处理多样本问题而设计的,没有特别考虑到少样本问题。经典架构不仅要穷尽所有的位置搜索是否覆盖目标,还需要将特征与目标形状相关联,这也要求主干要高效地将形状和类的概念编码成新类目标的语义。然而,在低资源头场景中,过大和过低的类内变化是非常常见的,类内变化往往带来低的类间差异,而低的类内变化通常导致低数据多样性(例如,宽高比)。利用有限的数据来学习鲁棒编码器是很困难的,因此少样本检测器无法从非鲁棒特征中提取高质量的建议。因此,许多FSOD方法利用额外的数据集[32],[33]来获取这些重量级框架的通用概念(例如,预训练的骨干[8],[34]-[36]),这有利于解决少样本挑战,而不是从头开始训练。为了获得高性能,一些作品假设一个新类别与基类别有密切的关系,例如共享的视觉组件(颜色/形状/纹理),添加额外的约束(KL发散)来有效地将共享的概念转移到新类别。但也带来了一些新的问题,如领域转移[37]、[38]等,源领域知识不能很好地适应目标领域。在这种情况下,这种训练前阶段对新任务的影响很小,FSOD方法很容易混淆高度相似的类,并且由于域间和域内的噪声支持很少,在定位新类[38]-[41]的目标时存在不确定性(章节I-C)。此外,大多数FSOD方法都集中在经典的N-way K-shot设置上,因为它不需要考虑不平衡问题,与其他经典设置相比,在Section I-B中,它不需要从从目标域收集的额外未标记数据中获取隐含信息。总之,FSOD还有很长的路要走。

在这里,我们将本文的范围限制在如何在少样本/有限监督设置下学习一个合格的检测器。为了内容的完整性,我们还简要回顾了目标检测、少样本学习、半监督学习和弱监督学习的进展。主要贡献总结如下:

  • 我们识别了少样本学习问题,并提出了一种新的基于数据的分类方法,以研究FSOD的主要挑战和现有解决方案。

  • 系统总结现有解决方案。我们的综述的概要包括少样本目标检测问题的定义,基准数据集,评估指标,主要方法的总结。特别地,对于这些方法,我们提供了详细的分析,这些方法如何相互作用,以促进这个有前景的领域的发展。

  • 提出并讨论了本课题潜在的研究方向。

e0b9e2557f0060c1c16f644f529976b1.png

本文仅做学术分享,如有侵权,请联系删文。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

9203cab878a96fa15f2aac566413d202.png

▲长按加微信群或投稿

48b9bed2a5173031dd5720523ae4bd64.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

5bde0891c5ce5b220ba6f553f6d7087a.png

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值