论文翻译———1 How to Fully Exploit The Abilities of Aerial Image Detector

How to Fully Exploit The Abilities of Aerial Image Detector 论文的部分翻译(ICCV 2019 )

摘要:航空图像目标检测通常主要面临两个挑战:(1)检测困难的目标(例如,小目标,受背景干扰的目标或旋转的目标等); (2)目标检测中固有的不平衡问题(例如,不同类别的数量不平衡,不平衡的采样方法或分类和定位之间的损失不平衡等)。由于这些挑战,检测器通常无法执行最有效的训练和测试。在本文中,我们提出了一个简单而有效的框架来解决这些问题。首先,我们提出了一种基于困难区域估计网络(DREN)的自适应裁剪方法,以增强对困难目标的检测,从而使检测器可以在测试阶段充分利用其性能。其次,我们使用训练有素的DREN来生成更多样化和更具代表性的训练图像,这对于增强训练集有效。此外,为了减轻训练过程中不平衡的影响,我们增加了一个平衡模块,其中采用了IoU平衡采方法和平衡L1损失。最后,我们在两个航拍图像数据集上评估我们的方法。在任何tricks的情况下,我们的框架的平均精度分别比VisDrone和UAVDT上的相应基准分别高8.0点和3.3点。

1.介绍

航空图像的目标检测由于其在交通监控和行人追踪等领域拥有重要的应用,在全世界引起了广泛的关注。在过去的几年里,网络主要基于滑动窗口搜索和手工特征。最近几年,随着深度学习成为目标检测的主导技术,相关的检测器(例如:R-CNN系列,YOLO系列,SDD系列,等等)在自然场景中的目标检测问题中取得了巨大的成功不同于自然场景图片(例如:Pascal VOC和MS COCO的图像)。航空图像有以下几个独有特性:(1)目标通常很小 (2)目标分布不平衡 (3)相机拍摄的角度不固定。由于这些特性的影响,为自然图像设计的检测器在检测航空图像时经常会遇到许多困难目标,这是第一个挑战。另一个挑战是目标检测中固有的不平衡问题,它阻碍了训练中的模型朝最佳方向进行优化,这种不良现象在不平衡的航空图像中尤为明显。由于存在以上两个主要的挑战,故在自然图像中表现良好的检测器通常在航空图像中无论是速度还是准确性上表现不佳。

为了弥补通用检测器的弱点,许多专门为航空图像检测设计的检测器已经被提了出来。例如,一些检测器[12Clusternet: De-tecting small objects in large scenes by exploiting spatio-temporal informatin(CVPR),5Detecting small ob-jects using a channel-aware deconvolutional network(TCSVT)]旨在提高对小物体的检测性能。而[14Small ob-ject detection in unmanned aerial vehicle images using fea-
ture fusion and scaling-based single shot detector with spa-tial context analysis,
20Object detectionin aerial images using feature fusion deep networks.]他们通常通过精心的设计和转换深层网络结构或者使用不同比例的特征融合来增强小目标的有效表示能力。但是在图像分辨率高且小目标密度大的情况下,通过以上方法得到的结果在精度上大多不能令人满意。此外,一些研究者提出对锚的改进,例如设计旋转anchor[5]或提出引导锚方案[31 Real-time vehicle detection from uav imagery]。但是,这些检测器人人不能解决真正棘手的目标检测难题,因为它们只能提升一种目标的检测。通常,上述大多数检测器专用于改善模型的结构以获得更好的结果,但这仅局限于改善效果,因为模型在训练和测试过程种无法充分发挥其作用。因此,对于现有的特征提取模型和分类器,我们认为可以在训练和测试阶段进行改进,以充分利用航空图像检测器的性能。

为了解决这些问题,我们提出了一个简单但有效的框架。在测试阶段,就像老师教学生那样,老师应该更加注意成绩较差的学生身上,以提高所有学生的整体表现。受到改动机的启发,我们提出了一个困难区域估计网络(DREN)来估计困难区域,然后重新测试这些困难区域。我们将难以检测到物体的集中区域称为困难区域。在训练阶段,为了减轻不平衡问题的影响,我们在平衡模块采用IoU平衡采样方法和L1平衡损失。此外,我们使用训练过的DREN来生成一些有效的训练数据,这种数据增强对于训练强大的检测模型十分重要。 总的来说,这项工作的主要贡献如下:

  • 我们提供了一个简单而有效的框架,通过加强困难目标的检测同时减轻不平衡难题的影响来充分发挥航空图像检测器的性能。

  • 在两个航空图像数据集上进行大佬实验和评估证明我们框架的有效性和稳定性

2.相关工作

自然图像检测 目标检测是计算机视觉领域中一个活跃的研究主题。一般来说,目标检测指的是自然图像的检测,也称作通用目标检测。现有的通用目标检测发生可以分为一阶段和两阶段。一阶段检测器包括SSD,YOLO和RetinaNet。两阶段检测器包括Fast-RCNN,Faster-RCNN和Mask-RCNN。我们主要引入R-CNN以及在其基础上开发的后续工作。R-CNN是R-CNN系列的开山之作,它采用选择搜索算法来获得候选框并且使用SVM作为分类器。Fast R-CNN通过引入ROI池化层来加速R-CNN。Faster R-CNN通过引入一个可学习的网络代替提案生成阶段,进一步提升速度和准确性。后来,Mask-RCNN通过增加一个分割分支实现最先进的性能。最近,无锚框的方法在自然图像检测中也十分流行。Cornernet是一个目标检测中的一项无锚框工作,它通过一对关键点检测目标的边界框,[4 Centernet: Object detection with keypoint triplets]是后来基于Cornernet的一项改进无锚工作。然而,自然图像与航空图像存在很大的差异,因此,这些检测器无法直接用于航空图像。
在这里插入图片描述

航空图像检测 不同于自然图像,航空图像的几种独有的特征。因此,长时间以来,许多特定于航空图像检测的检测器已经提了出来。这里,我们仅介绍一些基于深度学习的方法,因为它们与我们的工作关系更紧密。在[18]中,提出一种航空图像的快速多类车辆检测方法。[12、5、14、20]旨在通过精心设计和转换深度网络结构或使用不同尺度的特征融合来提升航空图像中的小目标检测效果。此外,此外,一些方法还对锚进行改进,例如设计旋转锚和提出锚导向方案。在[33 Clustered object detection in aerial images]中,已经提出一个用于聚类区域检测的框架,我们受到这个工作的启发。但是不同于ClusDet,我们考虑困难目标难以集中的区域,我们放弃了ClusDet的ScaleNetl来简化整个流程。另外,[34 Vision meetsdrones: A challenge.]中讨论了许多航空图像检测的算法。

目标检测中的不平衡 除了一个出色的结构,一个检测器还需要对其充分训练才能发挥最佳性能。然而,不平衡将阻碍精心设计的模型结构充分发挥其性能。例如,在采样层,通常很少的困难样本对于训练更有价值,因此在采样时应将其考虑在内。OHEM是一种流行的困难样本挖掘方法,但是它对噪声标签敏感。Focal loss也可以在一阶段检测器中缓解这种不平衡,但是发现其在两阶段检测器中使用时几乎没有改善。Libra R-CNN是最近针对目标检测的平衡学习提出的新框架,该框架集成IoU平衡采样、平衡特征金字塔和平衡L1损失。我们提出的框架采用了Libra R-CNN中的IoU平衡采样和平衡L1损失来减轻不平衡带来的影响,且不额外引入测试时间。

3. 提出的方法

3.1. 概况
如图2所示,我们提出的框架主要包含DREN和平衡模块。在测试时,将原始图像和裁剪后的图像都送入检测器,然后将生成的候选框用NMS合并在一起。在训练时,我们采用IoU平衡采用方法,平衡L1损失,并用训练后的DREN生成更多样化的训练数据,来缓解我们框架不同级别的不平衡。

在这里插入图片描述
3.2. 困难区域预测
我们提前训练了一个初步的检测器,用以在训练集上得到预测的盒子和分数。然后,我们使用预测的框和分数来计算得到区域的分数。最后,我们将交叉区域合并得到最终的困难区域,然后使用这些困难区域来训练DREN。
计算区域得分. 我们使用滑动窗口来获取区域。每个区域的得分计算公式如下:
在这里插入图片描述

这里p定义为一个区域,N是一个区域p预测的框的数目,M是区域p中所有框的平均分数,A是区域p的面积大小,S是该区域的最终得分。根据实验经验,我们将(N/M)比率设置成3:1平衡N与M的量级大小。
合并区域. 为了在困难目标集合找到连续的区域,计算完所有区域的分数后,我们那些带有交集的区域得到最终的困难区域。合并的具体过程如算法1所示:

           算法1. 基于IoU的迭代合并(IIM)
Input:     S: 区域集合;   t:合并阈值;  N_max:最终的合并区域的最大数量
Output:   S‘: 最终合并区域
1:function IIM(S, t, N_max):
2.:    S‘ ← S
3:    while |S‘ | > N_max do
4:       mious ← Compute IoUs(S‘,MaxIous)
5:       if max(mious) < t then
6:          break
7:       else
8:         x, y ←  argmax(mious)       
9:         S‘ ←S‘- x – y + merge(x, y)   
10:     end if
11:   end while
12:return S′
13:  
14: fuction MaxIoUs(box1, box2):
15:        area1, area2 ← Area(box1), Area(box2)
16:      area0 ← Area(box1 ∩ box2)
17:        return area0/min(area1, area2)

3.3. 缓解不平衡
生成裁剪的图像 一般航空图像具有很高的分辨率,或是物体的密度很大,或是目标的分布不均衡,使用随机裁剪的方法来增强训练数据是不合适的。因此,我们使用经过训练的DREN生成更多具有代表性的训练图像。在我们的实验中,每个图像生成四个裁剪图像(得分最高的四个困难区域),最后得到的训练集是原始数据集的四倍。IoU平衡采用,正如[22]所述,有超过60%的困难负样本重叠度大于0.05,而在同样的阈值限定下,随机采样仅仅提供30%的训练采样。IoU平衡采用是一种可以解决上述矛盾的分段采样方法。假设需要对N个负样本进行采样,然后根据IoU将采样间隔平均分为K个部分。那么每个目标选定的采样样本数目为:
在这里插入图片描述

在我们的实验中, 如果K设为3,则IoU的范围为[0, 0.3]
平衡L1损失. 除了IoU平衡采样外,我们还在平衡模块采用平衡L1损失,记作L_b。平衡L1损失从常规的平滑L1损失中得出,较大的梯度被裁剪为最大值1.0。推广的梯度公式被设计为:
在这里插入图片描述

通过积分公式(3),可以将平衡的L1损失表示为:
在这里插入图片描述

其中参数λ,α和b受到约束:
在这里插入图片描述

实验中我们设定α = 0.5, λ = 1.5。

3.4.裁剪图像的预处理
根据我们的实验经验,裁剪图像的纵横比不能太大或者太小。因此,对裁剪后的图像进行以下预处理:如果裁剪后宽(高)大于 0.7xW(H),那么则将裁剪后的图像分成两均等份,然后根据扩充规则进行扩充。如果裁剪后的图像的宽度(高度)小于0.6xW(H),则将其扩展为0.6xW(H). W和H代表原始图像的宽度和高度。在实验中,我们发现保留目标周围的一些信息有助于检测目标,这就是为什么图像会被放大的原因。

4. 实验与结果

4.1. 实验细节
我们的检测器基于PyTorch和Detectron 上实现。带有特征金字塔网络(FPN)的Mask R-CNN 被用作基线检测网络。我们在8个TITAN Xp GPU上训练了9万次迭代的检测器。初始学习速率为0.001,经过6万次迭代后,学习速率降低为0.0001。使用的动量为0.9,参数衰减为0.00001。困难区域估计网络(DREN)是在SSD网络上实现的,并据此设置参数。检测器的其他参数没有指定则与Detectron的初始设置相同。测试时,裁剪图像中预测的候选框如果位于边缘,则将被删除。在实验中,默认情况下,DREN为每个原始测试图像生成的困难区域数为3。
数据集和评估指标
VisDrone : 这是一个航空图像数据集,训练集中包含6471张图像,验证集548张图像和测试集3190张图像。分辨率约为2000×1500像素。训练集和验证集中的图像在十类对象上具有丰富的注释。在此数据集中,对象的密度很大,并且对象分布不均。由于此数据集的组织者未提供测试集的标签,因此我们使用验证集来测试经过训练的模型。
UAVDT:这是一个航空影像数据集。它包含大约4万张代表图像,包括23258张用于训练的图像和15069张用于测试的图像。分辨率约为1024×540像素。标签对象分为三类,包括汽车,公共汽车和卡车。

5. 性能

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值