【论文阅读】Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery学习

Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery

面向无约束遥感图像的多分类目标检测

论文地址: https://arxiv.org/abs/1807.02700

好像没有代码

《ReDet》论文中的定向对象检测:

为了检测任意方向的目标,一些方法[1,22,43]采用了许多具有不同角度、比例和长宽比的旋转锚框,以便更好地回归,同时增加了计算复杂性。(参考文献1) 

目录

摘要

1 介绍

2 方法 

2.1 图像级联、特征金字塔和可变形的初始子网 

2.2 旋转区域提案网(R-RPN)

2.3 兴趣网络旋转区域(R-ROI) 

3 实验与讨论

3.1 数据集

3.2 评价

4 结论


 摘要

        遥感图像无约束场景下的多类目标自动检测在交通监控和灾害管理等多个应用领域都具有重要意义。对象的规模、方向、类别和复杂背景的巨大差异,以及不同的摄像机传感器给当前的算法带来了巨大的挑战。在本研究中,我们提出一种新的联合图像级联特征金字塔网络多尺度卷积核组成的方法来提取多尺度的强和弱语义特征。这些特征被输入到基于旋转的区域提议感兴趣的区域网络中来产生目标检测。最后,采用旋转非最大抑制来消除冗余检测。在训练期间,我们最小化联合水平和有方向的边界盒损失函数,以及一个新的损失,强制有方向的盒是矩形的。在具有挑战性的DOTA数据集上,我们的方法在水平方向上实现了68.16%的mAP,在有方向的包围盒检测任务上实现了72.45%的mAP,比所有发布的方法都有了很大的提高(绝对改善分别为+6%和+12%)。此外,它还推广到其他两个数据集,NWPU VHR-10UCAS-AOD,即使在DOTA上训练,也能获得与基线相当的结果。我们的方法可以部署在多类目标检测应用,无论图像和目标的规模和方向,使它成为一个伟大的选择无约束的航空和卫星图像。

小结:

  • 新的联合图像级联特征金字塔网络多尺度卷积核组成的方法来提取多尺度的强和弱语义特征
  • 这些特征被输入到基于旋转的区域提议感兴趣的区域网络中来产生目标检测。
  • 最后,采用旋转非最大抑制来消除冗余检测。
  • 数据集:DOTA、NWPU VHR-10UCAS-AOD

1 介绍

        基于区域的卷积神经网络(RCNN),如(Fast(er))RCNN[8,23,24]和Mask- RCNN[9]已经在大规模地面图像数据集中取得了最先进的目标检测结果[6,15]。Fast- RCNN[24]利用多任务损失函数同时进行区域建议回归和分类任务,提高了RCNN[8]的检测精度。作为改进,Faster-RCNN集成了端到端可训练网络,称为区域提议网络(RPN),以学习区域提议,提高Fast- RCNN的定位精度。为了进一步改进Faster-RCNN,可以进行多尺度训练和测试,在多个层次上学习特征图;但是,这将增加内存使用和推断时间。

Fast- RCNN[24]利用多任务损失函数同时进行区域建议回归和分类任务
Faster-RCNN集成了端到端可训练网络,称为区域提议网络(RPN),以学习区域提议
进一步改进Faster-RCNN多尺度训练和测试,在多个层次上学习特征图;但这将增加内存使用和推断时间。

        另一种选择是图像或特征金字塔[7,12,14,20,21,31]。最近Lin等人[14]提出了特征金字塔网络(feature pyramid network, FPN),该网络通过一个特征金字塔来提取特征地图,从而方便不同尺度的目标检测,并且额外增加了边际成本。虽然联合图像和特征金字塔可以进一步提高结果,但由于计算代价,避免了这种方法。 

特征金字塔网络(feature pyramid network, FPN)
方便不同尺度的目标检测由于计算代价,避免了这种方法。 

        具体来说,该方法由以下连续模块组成:图像级联网络(ICN)、可变形初始网络(DIN)、FPN、多尺度旋转区域-提议网络(R-RPN)、多尺度旋转区域兴趣网络(R-ROI)和旋转非最大抑制网络(R-NMS)。我们工作的主要贡献如下: 

  • 我们提出了一种新的图像级联特征金字塔网络(ICN和FPN),可以在更大的尺度上提取信息,显著提高检测结果。
  • 我们设计了一个DIN模块作为域自适应模块,使用可变形卷积多尺寸卷积核将预训练的网络适应到RS域。
  • 我们提出了一个新的损失函数来加强检测坐标,形成四边形,通过约束边之间的角度为90度来形成矩形。这增强了对象定位。
  • 与现有技术相比,我们在三个具有挑战性的数据集上取得了显著的改进。

此外,我们采用旋转区域的建议来更准确地捕获遥感图像中的目标位置。最后,为了选择最佳的局部区域并消除冗余检测,我们采用了R-NMS,它是传统NMS的旋转变量。此外,我们使用来自Redmon和Farhadi[22]提出的旋转地面真相包围盒的聚类数据来初始化r- rnn中的锚点大小,而不是使用Faster-RCNN中的手动初始化。为了对该方法进行评价,我们将其应用于DOTA[30]数据集、近期大尺度卫星和航空图像数据集以及UCAS-AOD和NWPU VHR-10数据集。实验结果表明,与现有的目标检测方法相比,该方法具有更高的检测精度。

  •  R-NMS:为了选择最佳的局部区域并消除冗余检测,我们采用了R-NMS,它是传统NMS的旋转改进。
  • 使用来自Redmon和Farhadi[22]提出的旋转地面真相包围盒的聚类数据来初始化r- rnn中的锚点大小,而不是使用Faster-RCNN中的手动初始化。

2 方法 

图1给出了我们用于多类目标检测的联合水平和方向包围盒预测管道的高级概述。

  • 给定输入图像,结合图像级联和特征金字塔网络(ICN和FPN)提取丰富的语义特征映射,针对大小变化很大的目标进行调整。
  • 在特征提取之后,R-RPN返回类别未知的旋转区域,然后对这些区域进行分类并回归到具有R-ROI的边界框位置。
  • 在训练期间,我们最小化了R-RPN和RROI的多任务损失。
  • 为了得到矩形预测,我们通过计算它们的最小边界矩形进一步细化输出四边形。
  • 最后采用R-NMS作为后处理。

批注 

2.1 图像级联、特征金字塔和可变形的初始子网 

        为了从不同尺度提取强语义信息,本研究旨在利用卷积神经网络(CNNs)的金字塔特征层次结构。

  • 直到最近,特征提取通常是在单一规模[23]上进行的。(正如[14]中所讨论的,在图像和特征级别使用金字塔在计算上是禁止的。)
  • 然而,最近,通过FPN[14]多尺度方法变得可行。
  • 通过适当的权重共享,ICN(图2)和FPN(图3)的组合变得可行,并以全卷积的方式输出不同级别/尺度的比例大小的特征。

这个管道独立于主干CNN(例如,AlexNet [13], VGG[26],或ResNet[10])。这里,我们使用ResNet[10]。在ICN,如图2所示,我们使用ResNet 功能层次结构C1,C2, C3, C4、C5,对应输出的残块:conv1, conv2, conv3, conv4,和conv5(蓝色框如图2所示)。不同残差盒的像素步长相对于输入图像分别为2、4、8、16和32像素

        为了构建我们的图像级联网络,我们通过双线性插值调整输入图像的大小,得到4个缩放版本(1.5×,1×,0.75×,0.5×),并使用ResNet子网络提取特征层次。例如,对于上采样的输入(1.5×),所有5个残差块都被使用了,而对于半分辨率的版本(0.5×),只使用了c4和c5。级联网络是由ResNet的不同子网组成的,子网之间共享权值。因此,除了调整输入图像的大小,这一步并不会增加相对于单个分辨率基线的进一步计算成本。ICN允许将高分辨率(用于检测小对象)的低级语义特征与低分辨率(用于检测大对象)的高级语义特征相结合。这有助于网络处理具有广泛GSD范围的RS图像。 

        FPNs[14]允许通过自上而下的路径和横向连接将语义强的特征(从金字塔的顶部)和语义弱的特征(从金字塔的底部)结合在一起,提取不同尺度的特征(参见图3)。这里用ICN的特征层次提取代替了FPN原来自下而上的路径(即骨干CNN的前馈计算),具体来说是它们的残差块Ci, i∈{1,2,3,4,5}的输出。自顶向下路径将粗分辨率特征图(Mi)以2倍的倍数向上采样,并将其与相应的自底向上特征图Ci−1(即mapsCi−1)合并。(横向连接)。最后一组特征mapsPi, i∈{1,2,3,4,5},通过附加3×3卷积来减少上采样的混叠效应。关于fpn的更多细节,请参阅Lin等人[14]的工作。在原始FPN中,每个Ci 的输出通过1×1卷积来减少Mi中的特征映射数量。这里,我们将1×1卷积替换为DIN(Deformable Inception Network,参见图3),以增强CNN的定位特性,特别是对于RS数据集中普遍存在的小目标。尽管Inception模块[28]在诸如物体识别等各种任务中显示出了有希望的结果,但它们在检测方面的有效性还没有得到广泛的研究。虽然目前最先进的方法,如Faster-RCNN、R-FCN[3]、YOLOv3[22]和SSD[18],专注于增加网络深度,Inception块的好处在于在不同的尺度上捕捉细节,这对RS图像来说是非常理想的。

小结:

Inception:Inception块的好处在于在不同的尺度上捕捉细节,这对RS图像来说是非常理想的。DIN是改进的Inception块,用于学习对象的特征,包括跨1的灵活核大小的几何特征。defconv代表可变形卷积。 

原始FPN本文
原来自下而上的路径(即骨干CNN的前馈计算)

用ICN的特征层次提取代替了FPN原来自下而上的路径(即骨干CNN的前馈计算)

附加3×3卷积来减少上采样的混叠效应

每个Ci 的输出通过1×1卷积来减少Mi中的特征映射数量

1×1卷积替换为DIN(Deformable Inception Network)

目的:增强CNN的定位特性,特别是对于RS数据集中普遍存在的小目标

        可变形网络的目标是克服CNN在几何变换建模方面的局限,因为cnn的卷积核是固定大小的。将在地面图像上预先训练的模型(如我们的ResNet骨干)应用于RS图像时,传统卷积层的参数不能有效地适应目标的新视图,导致定位性能下降。在DIN中使用可变形卷积有助于适应这样的几何变换[4]。此外,可变形卷积层的偏移回归特性有助于在核范围外对目标进行定位。在这里,我们从头开始训练添加的偏移层,让网络调整到新的域。1×1卷积层为下一个可变形卷积(def-conv)层减少了一半的维数。输入到DIN的通道在四个DIN分支中平均分配。在我们的实验中,我们没有观察到使用5×5 def-conv层的改进,因此使用3×3层。 

 小结:

这样看来是对FPN的改进。

原因:传统卷积层的参数不能有效地适应目标的新视图,导致定位性能下降。

可变形网络:
目标:

  1. 克服CNN在几何变换建模方面的局限,因为cnn的卷积核是固定大小的。
  2. 可变形卷积层的偏移回归特性有助于在核范围外对目标进行定位。

1×1卷积层:为下一个可变形卷积(def-conv)层减少了一半的维数 

 

图3:具有可变形初始网络(DIN)的ICN和FPN子网示意图。

DIN是改进的Inception块,用于学习对象的特征,包括跨1的灵活核大小的几何特征。defconv代表可变形卷积。 

2.2 旋转区域提案网(R-RPN)

        FPN模块中每个Pi的输出由多尺度旋转区域提议网络(R-RPN)处理,以提供旋转提议,受[19]启发。更准确地说,我们修改了RPN,以提出旋转0、45、90和135度的区域,不区分物体的前后。为了初始化锚点,我们使用K-means++将尺度和宽高比聚类,并使用交集(IoU)距离度量[22]。我们为每一层分配四个不同方向的锚,从P2到p6。在原始的RPN,红外系统的输出特征图谱经过一个3×3卷积层,其次是两个平行1×1全层:一个对象分类层(obj)和box-regression层(reg) (cf,图1)。我们根据锚的 IoUs和地面真相边界框给锚分配标签。与传统的RPN相比,我们使用平滑损失来回归OBB的四个角(xi, yi),i∈{1,2,3,4},而不是HBB的中心点(x, y)和大小(w和h)。在这种情况下,(x1, y1)表示物体的正面,可以推断物体的方向。在这种情况下,(x1, y1)表示物体的正面,可以推断物体的方向。在Faster-RCNN中,我们最小化了多任务损失。

小结:
 

RPN旋转区域提议网络(R-RPN)提出旋转0、45、90和135度的区域
RPN:HBB的中心点(x, y)和大小(w和h)使用平滑损失来回归OBB的四个角(xi, yi),i∈{1,2,3,4}
初始化锚点K-means++将尺度和宽高比聚类,并使用交集(IoU)距离度量[22](根据锚的 IoUs和地面真相边界框给锚分配标签)


公式略 


2.3 兴趣网络旋转区域(R-ROI) 

        与[14]类似,我们使用多尺度ROI池化层对R-RPN提出的区域进行处理。因为生成的建议是旋转的,所以我们将它们旋转为轴对齐的。得到的固定长度特征向量被送入顺序的全连接层,最后通过四个同胞全连接层发送,对于每个对象提议,输出分类预测、精炼的HBB和OBB位置以及OBB的角度。

小结:

R-RPN提出的区域------》多尺度ROI池化层(得到的固定长度特征向量)---------》顺序的全连接层-------》输出分类预测、精炼的HBB和OBB位置以及OBB的角度。

 针对旋转建议:将它们旋转为轴对齐的

        如R-RPN所示,obb并没有被限制为矩形:R-RPN预测四边形的四个角而没有任何角或边的约束。然而,我们观察到注释器倾向于用接近旋转矩形的四边形来标记RS图像中的旋转物体。为了增强obb的矩形形状,我们提出了一种考虑相邻边之间夹角的新损失,即我们惩罚的角度不是90◦。 

        假设P_{ij}四边形连接转角j,其中i, j∈{1,2,3,4},i不等于j。然后,使用余弦法则,我们计算相邻边之间的夹角(例如p12和p13之间的夹角θ1)为:

         |P_{ij}|是边长。\Theta _{l}, l∈{1,2,3}约束为直角有多种方法。(注意,θ4可以从其他三个角度计算出来)。我们实验了以下三种角度损耗:

        我们最终的损失函数是一个多任务损失,包括四个损失,同时预测对象类别(Lcls),回归HBB和OBB坐标(),并强制OBB为矩形

其中的定义类似于上面的R-RPN中的。u是真实的类,p是预测类的离散概率分布,定义超过k + 1类别和其中“1”为背景类别。是预测OBB回归偏移量,而类别u和是真实OBB (i∈{1,2,3,4})。定义类似于Faster-RCNN中的,代替OBB坐标(左上坐标,宽度和高度)对应HBB坐标。当对象被归类为背景时,[u≥1]忽略偏移量回归。平衡超参数λ设置为1。为了获得最终的检测结果,我们计算了预测四边形的最小边界矩形。作为最后的后处理,我们使用R-NMS,计算旋转检测之间的重叠,以选择最佳的局部区域,并去除冗余区域。

3 实验与讨论

        在本节中,我们给出并讨论了该方法在3个遥感图像数据集上的评价结果。所有实验均使用NVIDIA Titan X gpu进行。骨干网的权值是使用预训练在ImageNet[5]上的ResNet-50/101和ResNeXt-101模型初始化的。图像预处理如基线[30]所述。利用翻转图像作为数据增强,在批量大小为1的情况下,60个epoch的学习速率为0.0005。此外,在训练期间,我们应用在线硬示例挖掘(OHEM)[25]来减少误报,我们使用Soft-NMS[1]作为更准确的非最大抑制方法,仅用于HBB基准。

3.1 数据集

        实验在DOTA[30]、UCAS-AOD[34]和NWPU VHR-10[2]数据集上进行,这些数据集都具有多类对象标注。

介绍略

3.2 评价

        为了评估我们检测的准确性和区域建议的质量,我们采用了与DOTA[30]相同的平均平均精度(mAP)和平均召回率(AR)计算。我们对DOTA验证集进行了消融实验。此外,我们将我们的方法与[30]中用于HBB和OBB预测任务的方法以及Yang等人基于ground-truth标签未公开的测试集的[32]用于OBB任务的方法进行了比较。这里报告的结果是通过提交我们的预测到DOTA官方评估服务器R-NMS使用0.1阈值,Soft-NMS使用0.3阈值

The impact of ICN  ICN的影响:(略)

The impact of DIN  DIN的影响:(略)

Rotated RPN and ROI modules 旋转RPN和ROI模块:(略)

Enforcing rectangular bounding boxes  强制矩形边框:(略)

On False Positives  在假阳性:(略)

Comparison with the state of the art  与目前的技术水平进行比较:(略)

NWPU VHR-10和UCAS-AOD数据集的泛化:如表6所示,我们的算法在这两个额外的数据集上也显著改善了基线。这证明了我们的方法具有良好的泛化能力。即使我们只在DOTA数据集上训练我们的算法,结果也是有竞争力的。 

4 结论

        在这项工作中,我们提出了一种新的算法,用于无约束遥感图像的多类目标检测,评估了三个具有挑战性的数据集。我们的算法结合了图像级联和特征金字塔以及旋转建议。我们通过应用一种新的损失函数来增强我们的模型,利用四边形坐标来增强几何形状。在DOTA数据集上,我们的方法大大优于其他已发布的算法[30,32]。我们的方法对不同平台(机载和星载)获取的图像数据的空间分辨率的差异也具有鲁棒性。

  • 无约束遥感图像的多类目标检测
  • 图像级联特征金字塔以及旋转建议
  • 应用一种新的损失函数增强我们的模型,利用四边形坐标来增强几何形状
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Clark-dj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值