论文翻译: DOTA:A Large-scale Dataset for Object Detection in Aerial Images

最新推荐文章于 2024-09-18 04:50:41 发布

扣子老三

最新推荐文章于 2024-09-18 04:50:41 发布

阅读量8.3k

点赞数 3

本文链接：https://blog.csdn.net/u013779449/article/details/80293154

版权

DOTA是一个由武大遥感国重实验室和华科电信学院合作建立的航拍图像目标检测数据集，包含了2806个航拍图像，每个图像大小约为4000*4000，覆盖15个目标类别，总计188282个实例。数据集旨在推动遥感图像目标检测研究，提供了大量多样化的实例，包括不同规模、位置和形状的目标，以及任意四边形边界框注释。DOTA数据集相比于现有航拍图像数据集具有更多类别和实例，且注释更详细，能够反映真实世界应用场景的复杂性，为算法提供了基准测试。

摘要由CSDN通过智能技术生成

DOTA:A Large-scale Dataset for Object Detection in Aerial Images

简介：

DOTA是武大遥感国重实验室-夏桂松和华科电信学院-白翔等合作做的一个航拍图像数据集

摘要：

目标检测是计算机视觉领域一个重要且有挑战性的问题。虽然过去的十几年中目标检测在自然场景已经有了较重要的成就，但在遥感图像上却进展缓慢，原因不仅仅体现在图像规模的庞大及多样性、物体定位问题和地球表面物体实例的形状检测上，还因为遥感场景中具有良好注释的数据集过于匮乏。为了推进在Earth Vision，又称Earth Observation and Remote Sensing上的目标检测的研究，我们引进在遥感图像目标检测领域的一个大规模数据集。截至目前，我们从不同的传感器和平台众包收集了2806个航拍图像，每一个图像是（大小约4000*4000），目标涵盖了各种各样的规模、位置、形状。这些图像被遥感领域的专家注释并被分为15个目标类别，注释后的完整数据集图像包括188282个实例，每一个被一个任意四边形标记。为了在Earth Vision上完成目标检测的一个baseline,我们在DOTA上使用最先进水平的目标检测算法。实验说明了DOTA数据集可以很好的表示出Earth Vision应用软件并且具有挑战性

背景介绍

在Earth Vision上的目标检测是指局部化地球表面感兴趣的物体，如交通工具、飞机等，然后预测他们所属的类别。在传统的数据集上，物体的位置通常由于重力而呈现出一种整体向下的状态，相较于传统数据集来说，航拍的数据集图像常常处于各种各样奇奇怪怪的位置上，比如图一所示，这取决与航拍的平台的视角。

随着计算机视觉领域的已有的最新进展和Earth Vision应用的高需求，有大量的研究已经围绕着航拍图像开展。这些方法中绝大部分尝试着将原有的目标检测算法从自然场景中转化到遥感图像领域。最近，由于受到基于深度学习的目标检测算法成功的鼓舞，Earth Vision的研究者们继续追逐处理遥感图像数据，进行了基于网络的微小调整，使之在大规模数据训练中有所改善。当此种微调的处理方式成为一种较为可行的探索途径时，一些图像如图片1，在一些方面揭示了航拍图像目标检测任务和传统目标检测任务的清晰区别

航拍图像目标检测的实例数量级更大。这不仅仅因为传感器的空间分辨率，也因为同一种物体目录下大小发生了变换
许多小物体实例在航拍图像中是聚集在一起的。比如说海港里的船只和停车场里的车辆，如图一所示。此外
航拍图像中物体出现的频率是非常不平衡的，比如一些小型的图像1k*1K中可能包含1900个实例，而一些大图4K*4K中可能只包含少数的小实例。
航拍图像中物体常常以任意的位置出现，有一些实例常常有着比较夸张的纵横比，比如说一座桥。

除了这些清楚明白的困难外，在Earth Vision的目标检测研究还面临着一些位置的数据集偏差问题，比如数据集的普遍性程度很低。为了缓和这些偏差，注释数据集时应该注意要反映真实世界的应用需求。

因此，不难明白，那些自然场景图片中习得的目标检测经验在航拍图像中并不适用。但是，在航拍图像的目标检测中存在注释好的数据集比如:，尝试着在理想状态(清晰的背景，不存在密集分布的实例)下使用图片，但是这样并不足以反映复杂问题

**图1：DOTA数据集中的一个例子
(a)DOTA数据集的一个典型图片包括各种各样多类别的实例
(b)图解实例有着多样化的位置和大小
(c)(d)分别图解稀疏的实例和聚集的实例，在这里我们展示DOTA 15个可能类别图像中的4类
(b)(c)(d)中图像是数据源(a)的裁剪，直方图(e)(f)表示出DOTA中实例大小和位置的分布规律**

我们认为，DOTA是Earth Vision中具有多样性目录的一个最大的有注释的数据集，它可以作为用来评价航拍图像的目标检测器。我们将会在视野和规模上继续更新DOTA，来反映不停变化的现实世界条件。

我们在DOTA上使用最先进的目标检测算法作为基准，它也将被作为未来算法改进的基准
为了促进Earth Vision上的目标检测研究，DOTA也将会在计算机视觉领域对传统目标检测提出感兴趣的算法问题