Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery 译

Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery

无约束遥感图像中的多类目标检测

 

摘要;

无约束情景下的遥感图像中的自动多类物体检测对于包括交通监控和灾害管理在内的多种应用非常有用。对象尺度,方向,类别和复杂背景的巨大变化以及不同的相机传感器对当前算法提出了巨大挑战。在这项工作中,我们提出了一种新的方法,包括一个新的联合图像级联和功能金字塔网络与多尺寸卷积核,以提取多尺度的强弱语义特征。这些特征被馈送到基于旋转的区域提议和感兴趣区域网络以产生对象检测。最后,应用旋转非最大抑制来移除冗余检测。在训练期间,我们最小化关节水平和定向边界框丢失函数,以及强制定向框为矩形的新颖损失。

在具有挑战性的DOTA数据集上,我们的方法在水平方向上实现了68.16%mAP,在定向边界框检测任务上实现了72.45%mAP,大大超过了所有已发布的方法(分别为+ 6%和+ 12%绝对改进)。此外,它推广到另外两个数据集,即NWPU VHR-10和UCAS-AOD,即使在DOTA上接受过培训,也可以通过基线获得有竞争力的结果。我们的方法可以部署在多类物体检测应用中,无论图像和物体的尺度和方向如何,使其成为无约束天线和卫星图像的绝佳选择。

1 Introduction

遥感(RS)技术的最新进展缓解了高分辨率多光谱卫星和航空图像的采集。 自动RS数据分析可以在短时间内提供对大面积区域的深刻理解。 在该分析中,多类物体检测(例如,车辆,船舶,飞机等)起主要作用。 它是许多应用的关键组成部分,如交通监控,停车场利用,灾害管理,城市管理,搜救任务,海上交通监控等。RS图像中的物体检测是一个巨大的挑战,因为图像可以采用不同的模态(例如,全色,多光谱和超光谱,以及雷达)采集,具有宽范围的地面采样距离(GSD),例如从10厘米到10厘米到 30米 此外,物体的尺寸,大小和方向可以在很大程度上变化。

近年来,深度学习方法已经取得了很好的地面图像目标检测结果,并且表现优于传统方法。 其中,深度卷积神经网络(DCNNs)已被广泛使用[10,13,26]。 在RS领域,新引入的大规模多类图像数据集(如DOTA [30])提供了利用深度学习方法应用的机会。 大多数当前基于深度学习的方法基于水平边界框(HBB)检测对象,其适用于地平面图像。 但是,在RS场景中,对象可以任意定向。 因此,强烈建议使用定向边界框(OBB),尤其是当多个物体彼此紧密靠近时(例如,停车场中的汽车)。

基于区域的卷积神经网络(RCNN),如(Fast(er))RCNN [8,23,24]和Mask-RCNN [9],已经在大规模地面图像中实现了最先进的物体检测结果。 数据集[6,15]。 Fast-RCNN [24]通过对同时区域建议回归和分类任务使用多任务丢失函数来提高RCNN [8]的检测精度。 作为一项改进,Faster-RCNN集成了一个端到端的可训练网络,称为区域建议网络(RPN),以学习提高Fast-RCNN定位精度的区域建议。 为了进一步改进Faster-RCNN,可以进行多尺度训练和测试,以便在多个层面学习特征图; 但是,这会增加内存使用量和推理时间。

另一种选择是图像或特征金字塔[7,12,14,20,21,31]。 最近,林等人。 [14]提出了特征金字塔网络(FPN),它通过特征金字塔提取特征图,从而便于以不同的尺度进行物体检测,并且边际额外成本。 虽然联合图像和特征金字塔可以进一步改善结果,但是由于其计算成本而避免了这种情况。

近年来,已经通过许多工作研究了RS图像中的物体检测。大多数提出的算法都集中在具有少量类和有限范围的GSD的对象检测上。 Liu和Mattyus [16]提出了定向梯度(HOG)特征的直方图和用于特征分类的AdaBoost方法来检测多类导向车辆。虽然这种方法实现了快速推理时间,但由于缺乏高级特征提取,因此检测精度不高。 Sommer等人。 [27]和唐等人。 [29]提出了基于RCNN的方法,使用硬负挖掘以及级联和反卷积特征映射。他们表明,这些方法在用于HBB任务的航拍图像中的单级车辆检测中实现了高精度。刘等人。 [17]提出了使用单发探测器(SSD)预测物体方向的旋转区域建议[18],改进了OBB任务的定位。杨等人。 [32]通过整合FPN改进[17]。

在本文中,我们专注于改进应用于航空和卫星图像的基于区域的方法的对象定位。 我们提出了一种新的端到端CNN,以解决RS图像中多类物体检测的上述挑战。 所提出的方法能够处理具有各种尺度,纵横比,GSD和复杂背景的图像。 此外,我们提出的方法通过使用OBB实现了准确的对象定位。 更具体的是,该方法由以下连续模块组成:图像级联网络(ICN),可变形初始网络(DIN),FPN,多尺度旋转区域 - 建议网络(R-RPN),多尺度旋转感兴趣区域 网络(R-ROI)和旋转非最大抑制(R-NMS)。 我们工作的主要贡献如下:

- 我们提出了一种新的联合图像级联和特征金字塔网络(ICN和FPN),它允许在各种尺度上提取信息并显着改善检测结果。

- 我们将DIN模块设计为域适配模块,用于使用可变形卷积和多尺寸卷积内核使预训练网络适应RS域。

- 我们提出了一种新的损失函数来强制检测坐标,形成四边形,通过将边缘之间的角度约束为90度来塑造矩形。 这增强了对象本地化。

- 与现有技术相比,我们在三个具有挑战性的数据集上取得了显着的进步。

此外,我们采用旋转区域建议在RS图像中更准确地捕获对象位置。 最后,为了选择最佳局部区域并去除冗余检测,我们应用R-NMS,它是传统NMS的旋转变体。 此外,我们使用Redmon和Farhadi [22]提出的旋转地面实况边界框中的聚类数据来初始化R-RPN中的锚点大小,而不是使用Faster-RCNN中使用的手动初始化。 为了评估所提出的方法,我们将其应用于DOTA [30]数据集,最近的大规模卫星和航空图像数据集,以及UCAS-AOD和NWPU VHR-10数据集。 结果表明,与现有技术的物体检测方法相比,所提出的方法实现了显着更高的精度。

2 Proposed Method

 

图1给出了我们用于多类物体检测的联合水平和边界边界框预测管道的高级概述。 给定输入图像,组合图像级联和特征金字塔网络(ICN和FPN)提取针对大小不同的对象调整的丰富语义特征映射。

在特征提取之后,R-RPN返回类别不可知的旋转区域,然后将其分类并回归到具有R-ROI的边界框位置。 在培训期间,我们将R-RPN和R-ROI的最小化和多任务损失降至最低。 为了获得矩形预测,我们通过计算它们的最小边界矩形来进一步细化输出四边形。 最后,R-NMS用作后处理。

2.1 Image Cascade, Feature Pyramid, and Deformable Inception Subnetworks

为了从不同尺度中提取强大的语义信息,这项工作旨在利用卷积神经网络(CNN)的层次结构的金字塔特征。直到最近,特征提取通常在单一规模上进行[23]。然而,最近,通过FPN [14],多尺度方法变得可行。正如[14]中所论述的,在图像和特征层面上使用金字塔在计算上是禁止的。然而,这里我们表明ICN(图2)和FPN(图3)的组合变得可行,并以完全卷积的方式在不同的水平/尺度上产生按比例大小的特征。该管道独立于CNN主干(例如,AlexNet [13],VGG [26]或ResNet [10])。在这里,我们使用ResNet [10]。在ICN,如图2所示,我们使用RESNET来计算特征层次C 1,C 2,C 3,C 4,C 5,其对应于所述残余块的输出:CONV1,CONV2,conv3,CONV4和conv5(图2中的蓝色框)为不同的剩余箱.The像素步幅是2,4,8,16,和32个像素相对于所述输入图像。

为了建立我们的图像级联网络,我们通过双线性插值调整输入图像以获得四个缩放版本(1.5×,1×,0.75×,0.5×),并使用RESNET子网提取特征层次结构。例如,虽然所有五个残余块用于上采样输入(1.5×),但对于半分辨率版本(0.5×),仅使用C 4和C 5。因此,级联网络由ResNet的不同子网络组成,它们彼此共享它们的权重。因此,除了调整输入图像的大小之外,该步骤不会向单个分辨率基线添加任何额外的计算成本。 ICN允许将低级语义特征与低分辨率(用于检测大型对象)的高级语义特征相结合。这有助于网络处理具有各种GSD的RS图像。在[33]中提出了类似的ICN定义用于实时语义分割,但没有考虑特征域中的不同尺度,并且为每个级别使用级联标签来补偿子采样。这种级联标签更适合语义分割。

可变形网络旨在克服由于其固定大小的卷积核而在建模几何变换中CNN的局限性。当将在地面图像上预训练的模型(例如我们的ResNet主干)应用于RS图像时,传统卷积层的参数不能有效地适应对象的新视图,从而导致定位性能的降级。在DIN中使用可变形的卷积有助于适应这种几何变换[4]。此外,可变形卷积层的偏移回归特性有助于甚至在内核范围之外定位对象。在这里,我们从头开始训练添加的偏移层,让网络适应新域。 1×1卷积层减小了下一个可变形卷积(def-conv)层的尺寸。 DIN输入的通道在四个DIN分支中平均分配。在我们的实验中,我们没有注意到使用5×5 def-conv层的改进,因此使用3×3层。

2.2 Rotation Region Proposal Network (R-RPN)

FPN模块中每个P块的输出由多尺度旋转区域提议网络(R-RPN)处理,以提供有根提议,受[19]的启发。更确切地说,我们修改RPN以提出旋转0度,45度,90度和135度的旋转区域,而不区分对象的正面和背面。为了初始化锚点,我们使用K-means ++和交叉联合(IoU)距离度量[22]来聚类比例和纵横比。我们为每个级别分配具有四个不同方向的锚点,P 2到P 6 3。与原始RPN一样,FPN的输出函数映射通过3×3卷积层,然后是两个并行的1×1完全连接层:对象类分类层(obj)和盒回归层(reg)参见图1)。对于训练,我们根据他们的IoU和地面实况边界框为锚点分配标签。与传统的RPN相比,我们使用平滑的l1损失来回归OBB的四个角(xi,yi),i∈{1,2,3,4}而不是中心点(x,y)和HBB的大小(w和h)。在这种情况下,(x 1,y 1)表示允许推断其方向的物体的正面。与Faster-RCNN一样,我们将多任务损失降至最低:

 

 

2.3轮换兴趣网络(R-ROI)

与[14]类似,我们使用多尺度ROI池层来处理R-RPN提出的区域。因为生成的想法是旋转的,我们将它们旋转为轴对齐。将所得的固定长度的特征向量被馈送到连续的完全连接(FC)层,并且通过四个兄弟FC层,最终发送该 - 为每个对象提案 - 输出的类别预测,精制HBB和OBB位置,以及OBB的角度。

如对于R-RPN所见,OBB不限于矩形:R-RPN预测四边形的四个角而不对角或边缘施加任何约束。然而,我们观察到注释器倾向于在RS图像中标记旋转的对象,其中四边形接近旋转的矩形。为了强制执行矩形OBB,我们提出了一种考虑相邻边缘之间角度的新损失,即我们惩罚不是90°的角度。

让我们考虑P ij和连接角i到j的四边形边,其中i,j∈{1,2,3,4}和i 6 = j。然后,使用余弦规则,我们计算相邻边之间的角度(例如,P12和P13之间的θ1),如下所示:

 

我们的最终损失函数是一个多任务损失,由四个损失组成,同时预测对象类别(L cls),回归HBB和OBB坐标(L loc-HBB和L loc-OBB),并强制OBB为矩形 L angle-OBB):

其中L cs(p,u)= -u log p和L loc-OBB(t u,v)的定义类似于上面的R-RPN中的L reg。 u是真正的类,p是预测类的离散概率分布,在K + 1类别上定义为p =(p 0,....,p K),其中“1”用于背景类别。 (1,2,3,4)是类u的预测OBB回归偏移,v =(v xi,y yi)是真正的OBB(i∈{1,2,3,4})。

L loc-HBB(tu,v)的定义与Faster-RCNN中的L reg类似,其中代替OBB坐标,{xmin,ymin,w,h}使用相应的HBB坐标。如果对象被分类为背景,[u≥1]将忽略偏移回归。平衡超参数λ被设置为1.为了获得最终检测,我们计算预测的四边形的最小边界矩形。作为最终的后处理,我们应用R-NMS,其中计算旋转检测之间的重叠以选择最佳局部区域并去除冗余区域。

3 Experiments and Discussion

 

在本节中,我们将介绍和讨论所提方法在三个RS图像数据集上的评估结果。 所有实验均使用NVIDIA Titan X GPU进行。 使用在ImageNet上预训练的ResNet-50/101和ResNeXt-101模型初始化骨干网络权重[5]。 如基线[30]所述对图像进行预处理。 此外,60个时期的学习率为0.0005,批量大小为1,使用翻转图像作为数据增加。 此外,在培训期间,我们应用在线硬件示例挖掘(OHEM)[25]来减少误报,我们使用Soft-NMS作为仅针对HBB基准的更准确的非最大抑制方法。

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值