IEEE2019论文：使用基于特征融合和缩放的具有空间上下文分析的单镜头检测器在无人机图像中检测小物体

最新推荐文章于 2024-05-07 16:15:12 发布

象牙山首富_

最新推荐文章于 2024-05-07 16:15:12 发布

阅读量1.7k

点赞数 1

文章标签：深度学习自动驾驶机器学习

本文链接：https://blog.csdn.net/weixin_42390283/article/details/120484905

版权

摘要：

无人机(UAV)图像中的目标由于拍摄高度较高通常都很小，我们虽然在目标检测方面已经做了很多工作，但是如何准确、快速地检测出小目标仍然是一个有待解决的挑战。本文针对无人机图像中的小目标检测问题，提出了一种基于特征融合和缩放的单镜头检测器(FS-SSD)。FS-SSD是基于FSSD的一种改进，FSSD是一种原始的单镜头多盒探测器(SSD)。本文中我们在反卷积模块中增加了一个额外的缩放分支，通过平均池化操作形成一个特征金字塔。我们还对原有的特征融合分支进行了调整，以更好地适应小目标检测任务。然后我们利用反卷积模块和特征融合模块生成的两个特征金字塔共同进行预测。除了FS-SSD学习到的深层特征外，为了进一步提高检测精度，还提出了空间上下文分析，将对象空间关系融入到对象再检测中。不同目标实例之间的类间距离和类内距离被计算为空间上下文，这对于多类小目标检测是有效的。我们在PASCAL VOC数据集和两个无人机图像数据集上进行了6个实验。实验结果表明，该方法在检测速度和准确率上均优于现有的六种方法。

关键词：

无人机图像、小目标检测、特征融合、特征缩放、单镜头检测器、空间上下文分析。

一、介绍

无人机摄影具有机动性高、部署速度快、监视范围广等优点，在安全监视、搜救、运动分析等领域得到了广泛的应用，无人机摄影已成为传统遥感的一种很好的补充。无人机作为主要的低空移动平台，具有成本低、体积小、灵活方便等优点，可以从机载遥感设备获取信息。无人机图像经过几何校正、图像增强、图像拼接等一系列计算机处理步骤后，获得的图像具有一定的精度，加上无人机的低空特性使其不易受到云层等干扰因素的影响，因此无人机摄影是卫星遥感和机载遥感的有力补充。

无人机图像中的目标检测作为计算机视觉的核心问题，在交通监控、智慧城市、体育运动分析等领域得到了学术界和实际应用的广泛研究。随着航空摄影和遥感技术的发展，无人机图像呈现出数据量大、多视角、厘米级分辨率的特点。无人机图像中的目标通常很小，边界模糊，加上复杂的背景和多变的光照条件。因此，面对如此复杂、海量的无人机图像，如何快速、准确地检测出无人机图像中的小目标，具有重要的理论意义和实际应用价值。

大多数传统的无人机图像目标检测方法都是基于滑动窗口的，使用手工制作的特征，如定向梯度直方图(HOG)特征、尺度不变特征变换(SIFT)特征和类Haar特征，这些特征既费时又费力地实现了特征表示的鲁棒性。这些低水平的自动化方法在很大程度上不能满足实时目标检测的要求。近年来，随着各种深度网络的兴起，目标检测方法取得了很大的进展，包括深度信念网络(DBNs)、卷积神经网络(CNNs)、生成性对抗网络(GANs)、深度转移网络等。CNNs区域类别的神经网络已被证明在计算机视觉的多个领域非常有效。在目标检测领域，基于CNN的现代检测器一般可以分为以下两类：两阶段检测器，如R-CNNs及其许多变体(Fast R-CNN、Faster R-CNN、R-FCN等)；一阶段检测器(YOLO、SSD等)。两阶段检测器将目标检测任务分为以下两个子任务：识别可能包含目标的图像区域，然后分别对每个区域进行分类。因此，两阶段检测器精度较高，但速度相对较慢，而一级检测器需要训练CNN模型，直接将图像像素映射到bounding box的坐标。与两阶段的检测器相比，一阶段检测器在速度和内存方面都有较高的效率，但在一定程度上牺牲了精度，特别是在小目标检测方面。现有的目标检测方法是在速度和精度之间折中的方法，通常基于深度学习的方法在计算时间和网络容量上都很昂贵，但是对于小目标检测精度相对较低。此外，心理学证据表明，语境对人类识别物体至关重要。计算机视觉领域的实证研究也证明，无论是传统方法还是基于深度学习的方法，通过对空间上下文进行适当的建模可以提高算法的性能。因此，空间背景对无人机图像中的小目标检测具有积极的影响。

针对无人机图像中的小目标检测问题，本文提出了一种含有空间上下文分析的基于特征融合和缩放的单镜头检测器(FS-SSD)。通过对特征融合模块进行优化设计，并加入具有平均池化层的反卷积模块，在FS-SSD中生成两个特征金字塔来检测小目标。为了利用不同目标之间的相互作用，通过计算目标实例之间的类间距离和类内距离来对空间上下文分析再进行目标的再检测，进一步提高了多类目标检测的准确率。

本文的主要贡献可以概括为以下几个方面：

<1>、在充分利用速度和精度的基础上，提出了一种基于特征融合和缩放的单镜头检测器(FS-SSD)。在FSSD的基础上，通过增加反卷积模块的额外分支和平均池化，对特征融合模块进行了调整。平均池化的增加可以通过减少参数总数以及提供图像的背景信息，在一定程度上帮助防止网络过拟合。与常用的上采样双线性插值操作相比，附加的带反卷积模块的缩放分支在网络中引入了非线性来增强网络的表示能力。由特征融合和反卷积模块生成的两个特征金字塔用于对小目标进行预测。

<2>、针对大多数目标检测器忽略空间关系的问题，本文提出了一种基于空间上下文分析的目标再检测方法。通过考虑多类对象在一定距离内的相互作用，计算不同对象实例之间的类间距离和类内距离作为空间上下文，以还原特定对象实例存在的置信度。该方法充分利用空间关系，实现了对多类小目标的检测，有效地提高了检测精度。

本文的其余部分组织如下。第二到四节描述了我们方法的细节，包括特征融合和基于缩放的SSD(FS-SSD)和用于目标重新检测的空间上下文分析。第五节给出了在斯坦福无人机数据集(SDD)和CARPK数据集的子集上进行的实验结果，以验证我们所提出的方法的有效性。第六节分别讨论了实验结果、我们的发现和未来的工作方向。最后，第七节对本文进行了总结。

二、所提出方法的概述

为了提高原有SSD网络对小目标的检测精度，本研究对深度学习模型的设计进行了改进，并提出了一种检测结果的优化方法。如图1所示，本文提出的方法包括以下两个阶段：(1)在训练阶段，在PASCAL VOC和COCO数据集上预先训练基于特征融合和缩放的单镜头检测器，并在实验无人机数据集上进行微调；(2)在检测阶段，利用提出的FS-SSD模型实现小目标检测。为了进一步提高检测精度，在空间上下文分析中利用多类目标之间的空间关系进行目标再检测。

图1 提出的无人机图像中小物体检测方法的架构

三、基于特征融合和缩放的单镜头检测器（FS-SSD）

在这项工作中，我们制定了一些设计原则，不仅是为了紧凑的结构，也是为了检测的准确性，因为准确性对我们来说是最重要的。我们从NIN、DSSD和DetNet的最新工作中汲取灵感，设计了一种有效的小目标检测体系结构。

1、用于预测的多尺度特征图

尺度变化是单镜头多盒探测器面临的一个重要挑战，对检测精度有很大影响。如图2所示，已经提出了许多方法来解决多尺度问题。在图2(a)中，以前基于手工制作的特征的工作利用多尺度图像作为输入来生成不同尺度的特征图，这是相当低效的。图2(b)采用Faster R-CNN和R-FCN等两阶段的检测器，利用最上面的特征图创建不同尺度的锚点。然而，单层固定的感受野在检测多尺度目标时存在一定的困难。图2(c)原SSD使用自下而上的特征金字塔进行预测。在图2(d)中，FPN开发了一种具有横向连接的自下而上和自上而下的体系结构，以获得语义上更强的特征，但它不足以逐层融合特征。FSSD结合了SSD和FPN，如图2(e)所示，特征自下而上融合后生成特征金字塔进行预测，但FSSD中的特征融合方法会造成底层信息的丢失。为了更好地解决尺度变化问题，我们结合现有方法的优点，提出了基于特征融合和缩放的SSD(FS-SSD)。图2(f)是我们基于特征融合支持平均池化的SSD，在网络末尾的最终预测层上增加了一个平均池化层，并对特征融合模块进行了调整。如图2(g)所示，我们利用反卷积模块对特征进行进一步缩放，以提高平均池化前特征图的分辨率。特征融合模块和反卷积模块共同组成缩放模块，生成两个特征金字塔进行预测。本文建议的网络的详细信息将在以下部分讨论。

图2 (a) 特征是从图像金字塔中独立计算出来的，这在计算上是昂贵的。(b) 单尺度特征用于进行预测，用于一些两阶段检测器，如 Faster R-CNN 和 R-FCN。(c) 使用从单个 CNN 生成的特征金字塔。传统的SSD就是之一。(d) 特征从上到下，逐层融合，被FPN采用。(e) 来自不同层的不同尺度的特征连接在一起并用于在 FSSD 中生成金字塔特征。(f, g) 我们的特征融合和缩放方法。(f) 通过添加平均池化层并调整特征融合模块来对 (e) 进行变体。(g) 融合特征后的特征金字塔以及被反卷积模块放大的特征用于一起进行预测。

2、特征融合模块和平均池化

原来的SSD是建立在VGG网络上的，它被一些卷积层截断了。如图3(a)所示，SSD在backbone的顶部增加了几个额外的卷积层。利用VGG网络中新增的每一层和conv4_3层进行预测。采用非最大抑制(NMS)作为后处理来得到最终的检测结果。虽然SSD在大多数自然图像的检测速度和准确度方面都表现良好，但它不适用于小物体检测。由于在ssd中金字塔特征被独立使用进行预测，不考虑不同特征层之间的上下文信息，这对小目标的检测有很大的帮助。因此，在图3(b)中，FSSD被提出来组合来自不同层次的特征图，生成一个特征金字塔来进行预测。实验结果表明，FSSD中特征融合模块的性能优于fpn。但是，FSSD中卷积核的大小、步长和填充带来了一些特征图的信息丢失，影响了小目标检测的性能。最后的预测层也需要为我们的任务仔细地重新设计。因此，在图3(c)中，我们通过添加一个平均池化层来获取特征融合前的上下文信息，并找到最优的设置来充分利用金字塔特征。

图 3 (a) 原始SSD网络；(b) FSSD 网络；(c) 具有特征融合模块和平均池化层的网络。

<1>、平均池化：

池化是一种基于CNN的骨干网络中常见的操作，它可以实现图像变换的不变性，使表示更紧凑，产生更高的感受野，有利于视觉分类。然而空间分辨率较低无法准确定位和识别小目标。主流的池化操作包括最大池化和平均池化。最大池化选择像素网格上的离散最大值。在训练过程中，当特征的最大值恰好位于所有像素点的中间时，所选择的最大值实际上并不是真正的最大值，这将降低目标分类的精度。为了最大限度地减少这种情况并保留特征邻域中的更多信息，我们采用平均池化而不是最大池化。

<2>、特征融合模块：

如上所述，通过特征融合来充分利用层次金字塔特征的方法有很多。为了节省计算成本，我们遵循图2(e)中fssd采用的思想。将不同层次的特征以适当的方式融合一次，然后由融合后的特征生成特征金字塔，将不同的特征图拼接在一起主要有两种方法，即拼接和逐元素求和。拼接只要求两个特征图之间的通道数相等，而按元素求和要求特征图具有相同的大小。比较了基于元素累加和拼接合并不同特征图时的检测性能，由于拼接灵活且性能优越，最终选择拼接进行特征拼接。

特征选择也是影响目标检测性能的一个重要因素。如表1所示，在原始SSD512中，VGG16的Conv4_3、FC_7和新增加的层Conv6_2、Conv7_2、Conv8_2、Conv9_2、Conv10_2被选来进行预测。FSSD的feature map选择遵循原SSD512的设置。据研究分析，空间尺寸小于10 px×10 px的feature map几乎没有信息需要合并。因此，在本文提出的FS-SSD512中，将特征图大于10 px×10 px的Conv4_3、FC_7和Conv6_2连接在一起，形成第一个最终预测层Final_1。五个选定的特征图，Final_2到Final_6，是具有高级语义信息的卷积层，其分辨率与FSSD512相同。我们用空间尺寸更适合小目标检测的平均池化层特征替换1 px×1 px特征图。

表 I 选择了 SSD、FSSD 中的特征映射以及我们提出的具有特征融合模块的网络。AP表示Average Pooling，FF表示Feature Fusion Module

3、反卷积模块

在图3(b)所示网络的基础上，我们在平均池化之前增加了一个反卷积模块，以逐步提高特征图的分辨率，如图4所示，这在下面的实验中证明对两个数据集都是有效的。反卷积模块由3个步长为2的2×2反卷积层和1个3×3的卷积层组成，其中每一层使用ReLU函数激活，然后进行批处理归一化操作。与传统的双线性上采样相比，反卷积层通过引入非线性来提高网络特征的代表性。卷积层起到了缓冲的作用，防止了来自整个网络梯度的严重影响，保持了网络的稳定性。批量归一化层将网络中每层任意神经元的输入值分布调整为平均值为0，方差为1的标准正态分布。它可以使激活值落在非线性函数对输入的敏感区，使得输入的微小变化会导致损失函数的较大变化，使梯度增大。这样可以缓解梯度消失的问题，同时可以缩短训练时间。反卷积模块将特征图按比例放大，特征融合模块后的额外分支将特征图按比例缩小，生成两个特征金字塔。VGG16骨干网的深层架构和缩放模块有助于实现更高的精度，而双分支的窄结构可以更好地控制网络的复杂性。由于我们需要使用密集的特征层来预测较小的目标，所以我们选择特征融合模块后的最后几个特征层以及Conv4_3层作为最终的预测层。

图5给出了所提议的FS-SSD中附加模块的详细设计。为了保持所提模型的效率，我们在每个附加卷积层之前采用了1×1卷积操作的低复杂度bottleneck层。使用1×1卷积来降低特征维数，减少每层的运算次数，节省计算成本，加快模型的推理过程。它们还可以为网络提供非线性。每个卷积和反卷积层之后都有一个ReLU激活和BN操作。通过整合上述改进，我们的FS-SSD不仅保持了高分辨率的特征图，而且保持了大的感受野，这两者对小目标检测都很重要。

四、目标重新检测的空间上下文分析

无人机图像中的目标通常很小，这使得深度神经网络很难捕获详细的语义信息，特别是当无人机图像中存在多类目标时。虽然提出的FS-SSD在一定程度上可以利用两个特征金字塔结构的上下文信息，但仅仅依靠目标的深层特征对目标进行分类是不够准确的，特别是当目标太小或目标的特征不够鲁棒时。为了改进不太可靠的检测结果，受大佬们启发，我们提出了空间上下文分析，将多类目标空间关系纳入到目标重新检测中。目标检测在很大程度上受环境因素的影响，尤其是周围的目标。在实际的道路场景中，属于相同或相似类别的对象往往比不同类别的对象更接近彼此。例如，在大多数情况下，行人位于路边，而汽车位于距离行人相对较远的道路中心。因此，我们希望在一定的置信阈值下，利用一定距离内不同对象实例之间的相互作用来提高目标检测的准确性。

空间上下文分析的总体思想是利用类别置信度较高的被检测对象来重新检测不太可靠的对象。对于不太可靠的对象a，如果在一定距离内存在可靠的对象，那么当前位置的存在被证明是更可靠的，并且a的类别置信度将会增加。相反，如果a的周围没有可靠的对象，则a存在的可能性会降低，类别置信度得分也会降低。

通过参考FasterR-CNN 中的双阈值设置，在提出的FS-SSD模型的检测结果中，我们将检测到的对象分为三组:可靠对象、不太可靠对象和不可靠对象。当一个对象的类别置信度分数大于0.6时，我们假设它是可靠的。因此，当类别置信度分数小于0.4时，对象被视为不可靠。重新检测过程的主要目的是提高类别置信度得分在0.4到0.6之间的不太可靠对象的分类精度。使用以下步骤进行空间上下文分析:

步骤一、

对于不太可靠的对象集{ai}，如果存在可靠的对象集{ bj }和{cz}，它们与{ai}中的对象实例的距离在d像素以内，bj与ai具有相同的类，并且cz属于另一个类，则转到步骤2。否则，转到步骤3。

步骤二、

由于在ai周围存在可靠的对象bj和cz，因此ai存在的可能性增加，其最终类别置信度C ' 将根据ai和bj，ai和cz之间的加权距离提高，其计算公式为(1):

其中C是FS-SSD检测后ai的置信度分数，D是不同对象之间的归一化距离，用来确定两个对象的bounding box是否重叠。如果ai的边界框与bj或者cz的边界框重叠，则转到步骤4。否则，转到步骤5。λ是FS-SSD模型与空间上下文分析方法之间的权衡参数。基于以上分析，C(ai)∈[0.4,0.6]，D(ai,bj)，D(ai,cz)以及最终类别置信度得分C ' (ai)在(0,1)的范围内。为了强调bj对ai的影响，同时保证C ' (ai)不大于1，理论上λ∈[0.2,0.4)。因此，空间上下文分析的权重不超过0.4。因此，cz对ai的影响权重设为0.4-λ。λ的准确值将通过第五节的实验四进一步验证。

步骤三、

如果在半径为 d 像素的不可靠对象 ai 周围没有可靠对象，超出d半径到ai的物体越可靠，ai出现在当前位置的可能性就越小。ai的最终类别置信度得分C ' ' 相应地根据如下公式降低:

其中N计算了到ai的距离大于d的可靠对象。

步骤四、

传统的距离测量方法通常采用欧几里德距离，在目标检测中，欧几里德距离计算的是两个边界框的中心点之间的距离。然而，当两个边界框具有重叠区域时，欧氏距离可能会导致计算错误。如图6所示，当存在边界框重叠时，O1是一个对象边界框的中心，O2和O2' 是另一个对象的不同边界框。两个对象O1和O2之间的距离D受边界框的形状和比例的影响，进一步计算加权距离将产生累加误差。受YOLOv2中距离计算的启发，当两个物体边界框有重叠时，我们在空间上下文分析中将交并比IoU引入到距离测量中。

IoU是两个边界框的重叠区域与其并集区域之间的比率，与边界框的形状和大小无关。两个边界框A和B的IoU计算为（3）：

这里的S是边界框的面积。对象ai与bj之间的距离计算如下：

步骤五、

如果对象ai和bj的边界框没有重叠，即它们之间的IoU为0，我们仍然使用欧几里德距离作为距离度量。Deuc是两个边界框的中心之间的欧几里德距离，最终距离D通过最小-最大缩放映射到[0，1]。

这里的(xi，yi)，(xj，yj)是边界框ai和bj的中心坐标。

图 6 边界框重叠引起的距离计算误差

以下实验中的对象包括三类:行人、自行车和汽车。以下实验的对象包括三个类别:行人、自行车和汽车。这三种对象的宽度和高度在30 px到80 px之间，行人的实例数超过了其他两类对象，因此我们以行人的大小(50 px × 50 px)为标准。由于所提出的空间上下文分析是基于与原始输入图像大小相同的FS-SSD模型的输出图像进行的，半径d根据输入图像中对象的像素大小和对象之间的稀疏性来确定的。统计上，实验数据集中不同对象实例之间的平均距离是500px。因此，在接下来的实验中，半径设置为500±50px。d的确切值将通过第五节的实验四来确定。

五、实验结果和分析

1、实验装置

<1>、数据集描述：

我们在以下两个具有代表性和公开可用的无人机图像数据集上进行了实验：CARPK数据集用于汽车检测，斯坦福无人机数据集(SDD)用于多类目标检测。CARPK数据集是第一个也是最大的无人机停车场视图数据集，包含了从四个不同的停车场捕获的近9万辆汽车，图像分辨率为1280 px × 720 px。图7给出了CARPK数据集的例子。我们使用989幅图像进行训练和验证，使用459幅图像进行测试。

图 7 CARPK 数据集的示例场景

斯坦福无人机数据集是第一个大规模的数据集，具有各种类别的物体的图像和视频，这些物体在真实的大学校园中移动和交互。整个数据集由8个独特场景中的6个类组成。然而，由于正交图像包含有限的目标检测信息，我们使用它包含四个场景的子集捕捉更多的目标，如图8所示，分别命名为bookstore、hyang、deathCircle和little。此外，原始数据集中的数据分布严重不平衡。为了平衡不同物体的数量，我们根据它们的外观和运动速度将这六类物体分为三组：行人、自行车手和汽车。

训练和验证集包含69673个图像，用于测试的图像有53224。表II 报告了每个场景中每个类别中的对象数量，图9显示了对象大小的统计信息。统计数据表明，由于三种对象的微小尺寸，SDD数据集非常具有挑战性。所有对象实例的大小都不大于图像大小的0.2%，其中相当大的百分比在0.1-0.15%之间。

表二 SDD 四种场景的数据分布

图 9 在 SDD 的四个场景中，对象大小占图像面积百分比的直方图

<2>、评价指标

我们使用每秒帧数（FPS）来测量检测速度，该速度表示检测模型可以使用指定硬件每秒处理的图像数量，我们在单个GPU设备上测试了每种方法的FPS。我们采用平均精度（mAP）作为检测精度的标准，这是一个与IoU阈值相关的指标。在我们的实验中，我们采用了最常用的阈值IoU=0.5。在多类目标检测中，AP计算精确度召回率曲线下的面积，mAP是多类AP的平均值。精确性和召回率可以定义为：

其中，TP表示真正的正样本，即IoU>0.5，FP表示假正样本(预测为正样本，实际是负样本)，FN表示假负样本(预测为负样本，实际为正样本，即漏检的目标)。

<3>、实现细节：

实验平台是3.40GHz的CPU, 16G RAM的PC机，Ubuntu 14.04操作系统，我们的方法是在Caffe 的基础上，通过MATLAB 2014和Python 2.7实现的，并通过一个带有12GB GPU内存、CUDA8.0和cuDNN5.0的NAVIDIA TITAN X GPU加速。

由于PASCAL VOC和COCO数据集中的对象比本文使用的实验数据集大得多，因此我们根据实际的边界框来改变纵横比。由于CARPK和SDD数据集的大多数box比率都在1-2的范围内，我们决定使用(1.5，2.0)作为每个预测层的纵横比。我们应用置信度阈值为0.01的NMS，每个类的jaccard重叠为0.45，并保留每个图像的前200个检测。

我们遵循与原SSD相同的训练策略。数据增强是通过随机裁剪原始图像，每个采样的patch都是原始图像大小的[0.1, 1]，宽高比在0.5 ~ 2之间。裁剪的patch以0.5的概率进一步水平翻转。我们还使用随机的光度失真，包括色相和饱和度的变化来模拟不同光照的场景。然后，所有的图片都被重新设置为512×512×3。在训练过程中，已证明训练多尺度目标检测器的最佳方法是使训练模型和测试模型具有相似的输入大小。如果使用在大规模目标检测数据集（如COCO）上训练的模型直接检测小目标，那么域转移问题是不可避免的。因此，对小对象数据集进行微调非常重要。因此，我们将在PASCAL VOC 2007、PASCAL VOC 2012和COCO数据集上训练的原始SSD模型作为预训练模型。然后，我们分别在CARPK数据集和SDD数据集的子集上微调模型。学习率设置为10^ −4并以 10^4为步长减少10%，动量(momentum)参数选择为0.9，权重衰减(weight decay)为0.0005。最大迭代次数设置为80000。

训练的目标是最小化（9）中用于定位的Smooth L1 loss Lloc和用于分类置信度的Softmax loss Lconf的加权和，这与SSD中的损失函数相同。

其中N为随机对象X的匹配默认框的数目，c是类别置信度分数，p是预测边界框，而g是真实边界框（gt boxes）。通过交叉验证将超参数α设置为1。

2、实验1:基于SDD 子集的 FS-SSD 网络的消融研究

为了了解不同网络模块的有效性，我们在SDD的子集上运行具有不同设置的模型，并将其评估记录在表III中。

表 III 不同设计因素对 SDD 子集的影响。AP表示Average Pooling，FF表示Feature Fusion Module，Deconv表示Deconvolution Module

首先，我们测试了特征融合模块的效果，表III显示了纯SSD512模型在不同的特征融合方式下可以得到不同的结果。使用concat拼接进行特征融合可以得到61.74%的mAP(行3)，而基于元素的求和进行融合mAP只能达到61.05%(行2)。在接下来的实验中，我们使用concat拼接来融合特征以获得更好的性能。然后，我们将具有平均池化层的附加 Conv6_2 与特征融合模块一起添加到 SSD512 模型中，mAP提升了1.52%（行4）。为了进一步验证使用平均池化的有效性，我们去掉了平均池化层，仅保留附加的 Conv6_2 到带有特征融合模块的 SSD512（行5）。然而，与SSD512和特征融合模块的组合相比，mAP仅有0.28%的提升，而与SSD512、平均池化和特征融合模块的组合相比，mAP下降了1.24%。结果表明，使用平均池化的附加卷积层比附加卷积层本身对检测精度的贡献更大。接下来，我们将平均池化操作添加到反卷积模块。与平均池化和特征融合模块的组合相比，平均池化和反卷积模块的组合产生了更高的mAP，为63.52%（行6）。之后，我们用反卷积模块替换平均池化，这次mAP达到63.83%（行7），略高于之前的模型。最后，我们提出了基于特征融合和缩放的SSD，该网络包括特征融合模块和具有平均池化的反卷积模块。我们的模型得到了65.84%的最高mAP（行8）。

3、实验2:在 PASCAL VOC 2007 基准测试中，所提出的 FS-SSD 与最新技术之间的比较

在本实验中，我们在 PASCAL VOC 2007 基准测试中将所提出的 FS-SSD512 模型与基线方法和其他最先进的检测器进行了比较。由于我们的方法主要是在FSSD512的基础上进行修改的，因此在下面的实验中选择FSSD512作为基线方法。其他基于深度学习的检测器包括两阶段检测器 Faster R-CNN和 R-FCN 、一阶段检测器 SSD、DSSD513 和 YOLOv3 。所有探测器都在PASCAL VOC 2007和2012数据集上进行了预训练。表IV 显示，提议的FS-SSD512模型在七种深度模型中以81.32%获得了第二高的mAP，仅比DSSD513的最佳性能低0.2%，而FS-SSD512的检测速度比DSSD513快近2.5倍。建议的FS-SSD512模型精度超过了FSSD512但FPS略有下降。强大的backbone ResNet-101以及反卷积模块促成了 DSSD513 的良好结果。YOLOv3是YOLO的最新版本。虽然在六个网络中检测速度最快，但对小目标的准确度远不能令人满意。这里引用的SSDs结果是作者在论文发表后更新的版本。

表 IV 在 PASCAL VOC 2007 测试中，所提议的 FS-SSD 与最先进检测器的比较。* 表示基线方法

4、实验3:所提出的 FS-SSD 与 CARPK 数据集上的最新技术之间的比较

在本实验中，我们在CARPK数据集上验证了所提出的FS-SSD的有效性。表V显示，我们使用VGG-16为backbone的FS-SSD512实现了89.52%的mAP，与第二好的网络FSSD512相比，提高了1.93个点，但检测速度略有降低。但是，实时检测的检测速度为18.29 fps是可以接受的。

表 V 提议的 FS-SSD 与 CARPK 数据集上最先进的检测器的比较，* 表示基线方法

与最先进的探测器相比，本文提议的探测器的速度如图10所示。R-FCN 和 DSSD513 中使用的更深层次的架构（ResNet）使模型更准确，但增加了计算复杂度。图11显示了CARPK数据集上原始SSD和建议的FS-SSD之间的比较。图11（a）是原始SSD的检测结果，它遗漏了许多具有密集属性、阴影或遮挡的对象实例。图11（b）中建议的FS-SSD大大降低了假阳性率。

图 10 所提出的方法与最先进的方法在 CARPK 数据集上的速度和准确性比较与其他型号相比，我们的 FS-SSD512 型号更准确，但速度稍有妥协

图 11 CARPK 数据集上原始 SSD512 和提议的 FS-SSD512 之间的比较。绘制得分为 0.5 或更高的边界框。(a) 原始 SSD 的结果。(b) 我们方法的结果

5、实验4:目标重新检测的空间上下文分析中不同参数设置下的检测结果

在本实验中，我们试图在目标重新检测的空间上下文分析中找到最佳参数设置，主要包括检测模型和空间上下文分析方法之间的折中参数λ以及不同对象之间的距离阈值d。根据第四节中的分析，折中参数λ在0.2到0.4之间，不同对象实例之间的平均距离约为500 px。因此，λ被设置为0.2、0.25和0.3，并且d以50 px的间隔被设置为450 px到550 px的范围。如图12所示，结果表明，在 SDD 的子集上，我们的方法对λ和d的选择是敏感的。基本上，当d从450像素变到500像素时，mAP值会增加，并且当λ设置为0.25，而d设置为500像素时，mAP值为66.42%达到了最佳性能。当λ=0.2时，无论d的选择如何，检测精度通常低于其他两组结果。当λ=0.3时，当d为450 px和475 px时，虽然性能优于其他两组，但精度下降不断增加d值。最佳结果将在下一个实验中与最先进的探测器进行比较。

图 12 不同参数设置下对SDD子集的检测结果

6、实验5:所提出的具有空间上下文分析的 FS-SSD 与 SDD 数据集子集上的最新技术之间的比较

在本实验中，我们将所提出的具有空间上下文分析的FS-SSD的客观检测结果与SDD子集上的六个最先进的检测器进行了比较。如表VI 所示，我们的512×512输入的FS-SSD模型实现了65.84%的mAP，比最新的FSSSD 512高出1.65个点。通过加入空间上下文分析进行重新检测，该模型的准确率从65.84%提高到66.42%，优于其他深度网络。在检测速度上，我们的FS-SSD512模型保持了与原SSD512相同的相对速度，基本满足实时检测的要求。表VII 是SDD数据集中不同类别的详细检测结果。三类实现了我们的带有空间上下文分析的基于特征融合和缩放的SSD的最佳精度。结果表明，在多类小目标检测中，不同对象实例之间的相互作用有助于提高性能。

表六：SDD 数据集子集上最先进检测器的速度和准确度的比较。SCA表示空间上下文分析，*表示基线方法

表 VII 最先进检测器在 SDD 数据集子集上的检测结果。所有检测器都在 PASCAL VOC 2007、2012 和 MS COCO 数据集上进行了预训练。SCA 表示空间上下文分析

7、实验6:使用空间上下文分析前后检测结果的主观比较

为了验证我们带有空间上下文分析方法的基于特征融合和缩放的SSD模型的有效性，我们给出了空间上下文分析前后的检测结果。如图13所示，左侧是提出的FS-SSD512模型，右侧是带有空间上下文分析的FS-SSD 512。在考虑了特定目标周围的影响后，由于有更多的目标可以被正确检测，因此假阴性(FN)率降低。比如第一排，FS-SSD512车型检测到的只有一个骑车人和9个行人，但是我们可以清楚的看到，另一个骑车人正好位于检测到的骑车人的左上方，这张图中的行人明显更多。然而，考虑到周围可靠对象的影响，这些可靠对象周围的其他骑自行车的人和更多的行人已经被检测到，即不太可靠的物体在它们的置信度得分上获得不同程度的提高。

图 13 FS-SSD512 与具有空间上下文分析的 FS-SSD512。两种模型均使用 VOC 07 + 12 和 MS COCO 数据集进行训练。绘制得分为 0.5 或更高的边界框。(a) FS-SSD512的检测结果。(b) FS-SSD512 对应的空间上下文分析检测结果

六、讨论

在本文中，我们提出了一种具有空间上下文分析的基于特征融合和缩放的单镜头检测器（FS-SSD）来解决无人机图像中的小物体检测问题。在实时检测的前提下，与其他基于深度学习的检测器相比，我们提高了检测精度。基于 FSSD ，我们添加了具有平均池化操作的反卷积模块的额外缩放分支，并重新设计了多层特征图的concat拼接。整个网络更深更窄，通过两个特征金字塔的联合预测增强了代表能力。除了提出的 FS-SSD，我们还考虑了多类对象的空间关系，以进一步提高检测精度。不同对象实例之间的类间和类内距离被计算为空间上下文，以对最终检测结果产生影响。

我们进行了六个实验来验证我们方法的有效性。在实验 I 中，进行消融研究以分析网络模块的不同组合。如表III 所示，我们的 FS-SSD 网络实现了最高的 mAP，达到 65.84%，这表明具有平均池化和特征融合的反卷积模块的额外分支可以充分利用小对象的特征。在实验二中，结果见表四，表四表明所提出的 FS-SSD512 模型超过了基线方法 FSSD512，在PASCAL VOC 2007 基准测试中的七个最先进的深度检测器中实现了第二高的 mAP，而 FPS 略有下降。在实验三中，我们在 CARPK 数据集上将所提出的 FS-SSD 与六种最先进的方法进行了比较，我们的模型以可比的检测速度实现了最高的 mAP。通过吸收最先进模型中设计理念的优势，所提出的 FS-SSD 由于网络代表性能力的提高而实现了更高的检测精度。图11是我们的 FS-SSD 和原始 SSD 之间的主观比较。我们的 FS-SSD 可以有效降低不同场景中密集分布对象的假阳性率。在实验IV中，在SDD的子集上探索了空间上下文分析中的最佳参数设置。图12显示，当FS-SSD模型和空间上下文分析之间的权衡参数λ设置为0.25，并且不同对象实例之间的距离阈值d设置为500px时，可以获得66.42%的最佳mAP。我们进一步将这个结果与实验V中的其他最先进的方法进行了比较。总的来说，在将空间上下文分析结合到FS-SSD模型后，与没有空间上下文分析和表VI和VII中其他六种最先进方法的结果相比，性能有所提高。表VI表明，我们的 FS-SSD 模型没有空间上下文分析也可以在 mAP 中胜过 FSSD512，提升 1.65 个点，这表明我们的网络对小物体具有更好的代表能力。主观检测结果如图13所示，这进一步证明了空间上下文分析对多类小物体检测的有效性。

七、结论和未来的工作

随着无人机摄影技术的快速发展和广泛应用，如何准确、快速地检测无人机图像中的小物体是计算机视觉研究领域的一个具有挑战性的问题。在本文中，我们旨在改进基于 FSSD 的网络架构，这是对原始 SSD 的改进。我们提出了一种无人机图像中小物体检测的方法，通过使用带有空间上下文分析的基于特征融合和缩放的单镜头检测器来提高检测精度。首先，在纯SSD网络上进行了不同设置的消融研究，以验证改进的特征融合模块和具有平均池化的反卷积模块的额外分支的有效性。从结果来看，我们可以看到，我们所提出的 FS-SSD 模型在充分利用特征邻域信息和多尺度特征图的优势下达到了最高的map。然后，我们比较了 FSSD 在 PASCAL VOC 基准上的检测结果，以证明我们模型的有效性。接下来，我们在 CARPK 数据集上将所提出的 FS-SSD 与六种最先进的方法进行比较。结果表明，所提出的FS-SSD由于吸收了最新技术的精华以提高网络代表能力，因此可以获得优异的检测精度。由于仅依靠深度学习检测器学习的特征对小物体进行分类是不够的，我们最终通过考虑一定距离内多类对象的相互作用，将空间上下文分析纳入对象重新检测。类内和类间对象实例之间的像素距离被计算为空间上下文，以在更精细的级别重新检测对象。我们研究了空间上下文分析中的参数设置，包括检测模型和空间上下文分析方法之间的权衡参数λ以及不同对象实例之间的距离阈值d。实验结果表明，所提出的FS-SSD在SDD子集上的精度优于六种最先进的方法，速度与其他检测器相当。对SDD数据集子集的主观比较结果进一步证明，基于所提出的FS-SSD，当λ和d被设置为适当的值时，空间上下文分析可以极大地提高检测精度。在我们未来的工作中，将考虑一种更有效、更精确的无人机影像目标检测体系结构。

未来，我们计划用更强大的网络取代主干网络，如ResNet ，以获得更好的特征表示，同时具有计算简单的优势。同时，我们将应用视频而不是静止图像，这就对实时检测提出了更高的要求。此外，更好的损失函数，如distillation loss，以及训练数据的选择也值得探索。

象牙山首富_

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
IEEE2019论文：使用基于特征融合和缩放的具有空间上下文分析的单镜头检测器在无人机图像中检测小物体

摘要：无人机(UAV)图像中的目标由于拍摄高度较高通常都很小，我们虽然在目标检测方面已经做了很多工作，但是如何准确、快速地检测出小目标仍然是一个有待解决的挑战。本文针对无人机图像中的小目标检测问题，提出了一种基于特征融合和缩放的单镜头检测器(FS-SSD)。FS-SSD是基于FSSD的一种改进，FSSD是一种原始的单镜头多盒探测器(SSD)。本文中我们在反卷积模块中增加了一个额外的缩放分支，通过平均池化操作形成一个特征金字塔。我们还对原有的特征融合分支进行了调整，以更好地适应小目标检测任务。然后我们利用
复制链接

扫一扫