通用目标检测(转载)

转载来源:https://www.cnblogs.com/xjxy/p/13588772.html#_label1

作者:lakaka

(若有侵扰、联系则删)

目录

定义:

发展历程:

典型算法

通用问题

正负样本不均衡

 定位精度低的问题

 目标特征不明显问题

 检测速度慢的问题

 Anchor—free问题

发展趋势

(1)结合一阶段二阶段

(2)视频目标检测

(3)弱/无监督目标检测算法

(4)多任务学习

(5)多源信息辅助

(6)构建终端检测系统

(7)航空遥感实时检测

(8)基于GAN的目标检测


通用目标检测

  

定义:

  给定一个任意的图像,确定是否有来自预定义类别的语义目标的实例,如果存在,返回空间位置和范围.相比于目标类检测,更侧重于探测广泛的自然类别的方法

发展历程:

  

  PASCAL VOC数据集, ILSVRC性能逐渐提高.

典型算法

  基于卷积的神经网络目标检测方法,根据检测速度可分为两阶段目标检测和一阶段目标检测。

  •   两阶段目标检测算法:生成候选区域+分类和边界框回归
  •   一阶段目标检测算法:仅一次前向传递一步到位

    

  一般两阶段算法速度较慢精度较高,一阶段算法速度较快精度较低。

  针对上图中算法,以后分开讲解。

通用问题

  对象的空间位置和范围可以使用边界框粗略地定义,边界框被更广泛地用于评估通用目标检测算法.

  发展趋势正在走向深入的场景理解(从图像级对象分类到单个对象定位,到通用对象检测,再到像素级对象分割)。

  主要涉及的问题如下:

         (1)正负样本不均衡问题

         (2)定位精度低的问题

         (3)目标特征不明显问题

         (4)检测速度慢的问题

         (5)Anchor—free问题

正负样本不均衡

  很多算法都有一个基本假设,那就是数据分布是均匀的。当把这些算法直接应用于实际数据时,大多数情况下都无法取得理想结果。因为实际数据往往分布得不均匀,都会存在“长尾现象”,也就是所谓的“二八原理”。

  任何数据集上都有数据不平衡现象,这由问题本身决定,但我们只关注那些分布差别比较悬殊的部分;另外,虽然很多数据集都包含多个类别,但这里着重考虑二分类,因为解决了二分类中的数据不平衡问题后,推而广之就能得到多分类情况下的解决方案。

大部分微博的总互动数在0-5之间,交互数多的微博(多于100)非常之少。如果去预测一条微博交互数所在档位,预测器只需要把所有微博预测为第一档(0-5)就能获得非常高的准确率,而这样的预测器没有任何价值.

  过抽样通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;

  欠抽样通过减少分类中多数类样本的样本数量来实现样本均衡,最直接的方法是随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。

  总体上,过抽样和欠抽样更适合大数据分布不均衡的情况,尤其是过抽样方法应用更加广泛。

  通过正负样本的惩罚权重解决样本不均衡的问题,算法中对于分类中不同样本数量的类别分别赋予不同的权重(一般思路分类中的小样本量类别权重高,大样本量类别权重低),然后进行计算和建模。使用这种方法时需要对样本本身做额外处理,需在算法模型的参数中进行相应设置。

  很多模型和算法中都有基于类别参数的调整设置,针对不同类别来手动指定不同类别的权重,SVM默认方法会将权重设置为与不同类别样本数量呈反比的权重来做自动均衡处理。

  组合/集成方法是在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,反复多次会得到很多训练集和训练模型,最后使用组合方法(例如投票、加权投票等)产生分类预测结果。

   

  如果计算资源充足,并且对于模型的时效性要求不高的话,这种方法比较合适。

  样本不均衡也会导致特征分布不均衡,但小类别样本量具有一定规模,其特征值的分布较为均匀,通过选择具有显著型的特征配合参与解决样本不均衡问题,称为基于列的特征选择方法。

   

  分类是监督式方法,前期是基于带有标签的数据进行分类预测;无监督式方法,则是使用除标签以外的其他特征进行模型拟合。上述四种方法的思路都是基于分类问题解决的。从大规模数据中寻找罕见数据,也可以使用非监督式的学习方法。

 定位精度低的问题

  定位和分类是目标检测的两大任务。在目标检测评价指标中,定位精度是一个重要测量指标,提高定位精度可以显著提高检测性能。

  (1)设计一种新的损失函数来测量预测箱的精度是提高定位精度的有效途径。

  (2)建立合理的目标检测评价指标,例如IoU。

  

  IoU是最常用的目标检测评价指标,对于两个边界框,IoU可以计算为交集面积除以并集面积。该损失函数对不同形状和尺度的物体具有较强的鲁棒性,能在较短的时间内很好地收敛。

 目标特征不明显问题

  从输入图像中提取有效特征是进一步精确分类和定位的前提,要充分利用连续的输出特征图谱骨干层。

  FPN的目标是提取更丰富的特性,通过将这些产品分为不同级别大小不同的检测目标。

   

                

  左侧整个过程是先对原始图像构造图像金字塔,然后在图像金字塔的每一层提出不同的特征,然后进行相应的预测,可以获得较好的检测精度。

  右侧利用卷积网络本身的特性,对原始图像进行卷积和池化操作,获得不同尺寸的feature map.

  图像中不同目标或区域之间的语义关系可以帮助检测遮挡和小目标。图像特征增强的方法有许多:

  (1)利用组合的高级语义特征对目标进行分类定位,逐步将多区域特征结合起来;

  (2)利用语义分割分支和全局激活模块,丰富典型深度检测器中目标检测特征的语义;

  (3)采用场景上下文信息进一步提高准确性,构建目标之间的建模关系;

  (4)充分利用目标有效区域,网络权值和采样位置共同决定有效支撑区域。

  (5)脑激发机制是进一步提高检测性能的有力途径。

 检测速度慢的问题

   对于有限的计算能力和内存资源,如移动设备、实时设备、网络摄像头和自动驾驶鼓励等研究有效的检测架构设计。轻量化的目标检测算法,基于FPGA的硬件加速芯片是加快检测速度的重要方向。

   

  针对轻量化算法,从模型设计时就采用一些轻量化的思想,例如采用深度可分离卷积、分组卷积等轻量卷积方式,减少卷积过程的计算量。此外,利用全局池化来取代全连接层,利用1×1卷积实现特征的通道降维,也可以降低模型的计算量。

  对于轻量化的网络设计,目前较为流行的有SqueezeNet、MobileNet及ShuffleNet等结构。SqueezeNet采用精心设计的压缩再扩展的结构,MobileNet使用了效率更高的深度可分离卷积,而ShuffleNet提出了通道混洗的操作,进一步降低了模型的计算量。

   

  以卷积层(conv1)开始,接着使用8个Fire modules (fire2-9),最后以卷积层(conv10)结束。每个两个fire module中的filter数量逐渐增加,并且在conv1, fire4, fire8, 和 conv10这几层之后使用步长为2的最大池化,即将池化层放在网络相对靠后的层

 Anchor—free问题

  目前主流目标检测算法包括多阶段的各种RCNN和单阶段的SSD、RetinaNet上都是基于Anchor来做的。Anchor的本质是候选框,在设计不同尺度和比例的候选框后,学习如何将这些候选框进行分类:是否包含目标和包含什么类别的目标,对于positive的anchor会学习如何将其回归到正确的位置。但是,这种设计思路有很多问题:

  (1)大部分目标形状不规则,边界框涵盖了大量非目标区域,引入较多干扰;

  (2)Anchor的设置需要手动去设计,不同数据集要不同设计;

  (3)Anchor的匹配机制使极端尺度被匹配到的频率相对于大小适中的目标被匹配到的频率更低;

  (4)Anchor的庞大数量存在严重的不平衡问题。

  Anchor-Based存在上述的问题,提出了Anchor Free的方法。

  anchor-free方法主要有两种方法解决检测问题:

  (1)基于密集检测的方法:这种方法将目标检测分为两个子问题,即确定物体中心和对四条边框的预测,遵循区域分类回归的思想。这两个子问题是通过密集预测的方法解决的,因此与Segmentation相通,代表作有FCOS,Foveabox和FSAF等;

  (2)基于关键点的方法:这种方法跳出了区域分类回归的思想,通过解决关键点定位组合问题来检测物体,代表的有CornerNet,CenterNet和ExtremeNet等。

   

  anchor-free模型是改变了GT的定义,Cornernet定义为角点,Extremenet定义为极值点和中心点,FSAF、FoveaBox定义为矩形框的中间区域,FCOS虽然是矩形框,但是经过center-ness抑制掉低质量的框,也是一种将GT定义为矩形框中心区域。重新定义之后,需要检测的目标语义变得更加明确,有利于分类和回归。因此,anchor-free本质上是将anchor-based转换成了keypoint-based /region-based。

     

  红色、蓝色和其他颜色分别表示1、0和它们之间的值。计算中心度,当位置偏离物体中心时,中心度从1衰减到0。在测试时,网络预测的中心度与分类得分相乘,从而可以降低由远离对象中心的位置预测的低质量边界框的权重。

发展趋势

(1)结合一阶段二阶段

  由单一阶段的算法框架向一阶段二阶段结合的框架发展

  针对二阶段需要密集的尾迹处理才能获得尽可能多的参考箱,既费时又低效和一阶段处理速度快但精度较低的问题,提出将一阶段和二阶段结合的方法解决这个问题,实现在保持高精确度的同时消除较多冗余的效果。如何将一阶段和二阶段的优点结合起来仍然是一个很大的挑战。

  CVPR2020阿里达摩院发布《 Structure Aware Single-stage 3D Object Detection from Point Cloud 》,将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中。具体来说,在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,同时在模型推理过程中辅助网络无需参与计算,在保障速度的同时又提高了检测精度。

   

  KITTI测试集的测试结果,预测的边界框显示为绿色。预测被投影到RGB图像上,以获得更好的可视化效果。

(2)视频目标检测

  由传统图片目标检测向视频目标检测发展。

  针对单帧图片不能连续反映目标运动过程且在视频目标检测中,运动模糊、视频散焦、运动目标模糊、目标运动剧烈、小目标、遮挡、截断等问题,提出视频的运动目标和更复杂数据的目标检测研究,实现在实际生活场景和遥感场景中都表现较好的检测性能。深入研究运动目标和更复杂的数据(视频)是未来研究的重点。

   

  CVPR2020微软亚洲研究院发布《 Memory Enhanced Global-Local Aggregation for Video Object Detection 》,提出了基于记忆增强的全局-局部整合网络(MEGA),它从全局和局部两方面出发,共同解决视频物体检测的问题。先将全局特征整合到局部特征中,以解决无效的问题。后引入了新的长时记忆模块(LRM)来解决整合规模太小的问题。

(3)弱/无监督目标检测算法

  由有监督目标检测算法向弱监督/无监督目标检测算法发展。

  针对传统有监督方法需要对目标进行大量类和边界盒的标注,工作量大、对样本敏感、处理时间长等问题,提出利用只标注对象类而不标注对象边界盒的高比例图像来代替大量完全标注的图像进行训练,弱监督目标检测利用少量的全标注图像来检测大量的非全标注图像,无监督利用自动标注技术代替人工标注。因此,发展弱监督目标检测方法是一个值得进一步研究的重要问题。

  CVPR2020南京大学发布《 Rethinking the Route Towards Weakly Supervised Object Localization》,提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法存在的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练,整体效果达到SOTA

 

  CAM图中,黄色框是预测框,红色框是GT框。作者方法图中,蓝盒为DDT预测框,绿盒为回归模型预测盒,红盒为GT框。使用DenseNet161-Sep模型来输出DDT和预测框

4)多任务学习

  由当前单任务学习向多任务学习转变。

  针对当前单任务学习检测性能低、信息利用率低等问题,提出将网络中的多个任务聚合在一起,汇聚骨干网的多级特征的多任务学习方法提高检测性能,同时执行多个计算机视觉任务,如目标检测、语义分割、实例分割、边缘检测、高亮检测等,丰富信息可以大幅度提高单独任务的性能。如何保持处理速度和提高精度对研究人员提出了很大的挑战。

   

  CVPR2019伦敦帝国学院发布《 End-to-End Multi-Task Learning with Attention》,提出了一种基于soft-attention模块的多任务学习框架,该框架包括一个主网络用来产生所有任务共享的feature,在此基础上,每个任务通过soft-attention模块从主网络从获取对自己有用的feature进行计算,最后达到多任务计算的效果。

 

  视觉化的第一层七类语义分割和深度估计注意特征。

  顶行:语义特征;底行:深度特征。

5)多源信息辅助

  由传统的单一信息来源向多源信息辅助研究转变。

  针对传统检测研究信息来源单一的问题,随着社交媒体的普及和大数据技术的发展,多源信息变得容易获取,提出多源信息辅助研究方法,许多社交媒体信息可以提供图片和文字形式的描述,这可以帮助检测任务。随着各种技术的进步,融合多源信息是一个新兴的研究方向。

6)构建终端检测系统

  由云端检测向更可靠高效的终端检测系统发展。

  针对云端处理海量信息较慢、可靠性稍差、实时性较差的问题,提出构建终端检测系统的想法,从云端到终端,人工智能的终端化可以帮助人们更好更快的处理海量信息解决问题。随着轻量级网络的出现,终端检测器被发展成为更高效、更可靠、应用场景更广泛的设备。基于FPGA的芯片检测网络将使实时应用成为可能。

 

7)航空遥感实时检测

  航空遥感图像的广泛应用使得航空遥感实时监测成为热门方向。

  针对针对遥感图像行人等目标目标像素非常少,难以与周围背景区分,目标一般非常稀疏且分布不均匀,使得检测效率非常低的问题以及地质调查、生态环境调查、抗震救灾和农业领域都需要精确地分析遥感图像的需求,自动化检测软件和集成硬件将给这些领域带来前所未有的发展,将基于深度学习的目标检测系统加载到片上系统SoC中,实现了对高空的实时检测。

   

        

  CVPR2019天普大学发布《Clustered Object Detection in Aerial Images》,提出ClusDet集群检测网络,包括集群提议子网络(CPNet),减少最终目标检测块的数量,从而达到运行时间效率高尺度估计子网络(ScaleNet),有效提高小目标检测检测网络(DetecNet),集群proposal隐式利用上下文信息,提高了检测的准确性。

   

  聚类检测被投影到特征映射空间,每个簇被汇集成一个固定大小的特征映射,并通过完全连接层映射成一个特征向量。网络具有每个集群的输出。

8)基于GAN的目标检测

  生成对抗网络的生成假图像的功能使GAN成为目标检测热门方向。

  针对基于深度学习的系统往往需要大量的数据进行训练的需求,利用生成对抗网络生成假图像的强大功能,生成大量数据样本,实现数据扩充。将真实场景与GAN训练目标检测器生成的仿真数据混合,使检测器具有更强的鲁棒性和泛化能力。

   

  CVPR2020年涉及GAN网络的应用文章至少22篇以上。香港中文大学对已经训练好的GAN进行编辑,训练超平面,将图像的特征和latent code对应起来,通过编辑潜码距离超平面的距离来控制图像的特征信息;Facebook利用已经训练好的styleGAN网络,生成和单张目标图片具有相同分布图像,实现数据集扩增;东北大学(美)利用条件WGAN实现特征的合成,进而实现分类的数据集扩增。

  

  改变GAN模型的潜来操纵各种面部属性。第一列PGGAN的原始合成,其他每列都显示操作特定属性的结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值