遥感图像目标检测概况

qq_57348548

已于 2023-10-15 18:53:34 修改

阅读量2.7k

点赞数 22

文章标签：目标检测计算机视觉

于 2023-10-15 18:36:03 首次发布

本文链接：https://blog.csdn.net/qq_57348548/article/details/133845828

版权

一. 遥感目标检测的挑战

1.数据集标注困难大，主要体现在标注人需要的专业性强，标注工作量与目标种类多等

2.候选框生成过程复杂，需要面对方向旋转的问题，边界交换问题等

3.视角单一，可用信息少，对于细节方面识别比较困难，不像自然图像多方向多角度的图片

4.图像检测范围大，计算资源受限，导致检测器效率低

5.目标尺寸小，识别难度困难

二.对应的解决方案

1.弱监督目标检测 -- 杨学

RINet：通过旋转不变性挖掘多个不同朝向的目标实例

SOOD：半监督框架，通过强监督来得到弱监督

H2RBox：通过自监督学习旋转角度

2.有向目标检测

oriented rcnn：解决方向的问题

learning high-precision bounding box for retated object detection:解决边界交换问题

3.细粒度型号识别

CHNet:先检测后识别的级联分级网络

SFRNet:运用transformer

4.高效目标检测

ClusDet：聚类网络，只检测包含目标的区域

PAN：将尺度先通读图像块打包成一个图像块进行检测

OAN：将图像分为相同大小的网格，对每个网格判断是否有目标

5.弱小目标检测

dynamic coarse-to-fine learning: 以动态的方式建模目标表征、先验和样本分配过程

三.数据集介绍

1.NWPU VHR-10（80M）

NWPU VHR-10 (Cheng et al.，2016) 这个高分辨率(VHR)遥感图像数据集是由西北工业大学(NWPU)构建的，包含10类正例样本650张以及不包含给定对象类的任何目标的150张反例图像（背景），正例图像中至少包含1个实例，总共有3651个目标实例。

本数据集中目标为航拍图像下的目标种类，包括飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车共计10个类别。

数据集分为positive image set、negative image set、ground truth三个文件 positive image set目录下为正例图像，negative image set目录下为反例图像正例、反例图像皆从001开始命名，所有图像为jpg格式。

HBB标注

2.DOTA（18.8G）

DOTA(Xia et al.，2018)是武大遥感国重实验室和华科电信学院等合作的一个航拍图像数据集，包含2806张遥感图像（图片尺寸800800到40004000），一共188282个实例，分为15个类别：飞机、船只、储油罐、棒球场、网球场、篮球场、田径场、海港、桥梁、大型车辆、小型车辆、直升飞机、足球场、立交路口、游泳池。

DOTA在提出之时可以称得上规模最大的航空图像数据集。DOTA与NWPU VHR-10等数据集相比，前 10类数据虽然都有，但是DOTA的数据量更多、数据注释更加丰富。此外，DOTA还将车辆数据分为大型车辆与小型车辆，主要考虑两者之间的明显差异性；将直升飞机数据纳入到数据集中，主要考虑移动目标在航空图片中也有十分显著的作用；将立交路口纳入到数据集中，主要考虑到它在道路分析中的作用。DOTA与当时的航空图像数据集进行了比较，指出了这些数据集普遍存在的缺点：

1）数据规模小；

2）类别数量少；

3）图像分辨率低；

4）注释不丰富，并且无法形成数据与真实世界之间的映射

数据集分为train、val、test三个文件。三个文件下都包含图片数据images文件夹，文件中的图片以 P+图片编号命名，所有图像为PNG格式，图像尺寸介于800800和40004000之间，实例尺寸介于0- 2500像素之间

train、val文件下还包含对应图片的标注信息，分为DOTA-v1.0和DOTA-v1.5版本， v1.5包含16个类别中的40万个带注释的对象实例，是v1.0（15个类别）的更新版本。它们都使用相同的航拍图像，但是v1.5修改并更新了对象的注释，主要对v1.0中标注的10像素以下的小对象实例进行了额外注释，v1.5的类别也得到了扩展，增加了集装箱起重机这一类别。

OBB

3.DIOR （6.9G）

DIOR (Li e al.，2020)是由西工大韩军伟课题组提出的一种用于光学遥感图像中目标检测的大规模基准数据集，包含23463幅遥感图像（图片尺寸为800*800）和190288个实例，同时论文也对近年来基于深度学习的目标检测方法进行了综述。数据集中的实例分为20个类别：飞机、飞机场、棒球场、篮球场、桥梁、烟囱（工业）、水坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、田径场、立交路口、体育馆、储油罐、网球场、火车站、汽车、风力发电机。 HBB，DIOR-R是OBB

4.UCAS-AOD

UCAS-AOD (Zhu et al.，2015)用于飞机和汽车的检测，包含飞机与汽车2类样本以及一定数量的反例样本（背景），总共包含2420幅图像和14596个实例。论文中特别提到了目标检测的方向健壮性，所以在数据集标注过程中作者对数据进行了一定程度的筛选，使得图像中的物体方向分布均匀

集中目标为航拍图像下的飞机和车辆，有HBB和OBB

5.HRRSD

HRRSD 数据集是2019年中国科学院大学发布的数据集，HRRSD包含从Google Earth和Baidu地图获取的21761幅图像，空间分辨率从0.15m到1.2m。HRRSD中有55740个目标的实例，每个类别4k左右。HRRSD包含13类目标。13个类别分别是：飞机、棒球场、篮球场、桥梁、十字路口、田径场、港口、停车场、船、存储罐、丁字路口、网球场、汽车。数据库的亮点是，各个类别之间样本量较均衡，每个类别都有大约4000个样本。

标注形式为HBB

6.ACS

ACS数据集由飞机、汽车和船舶三大类组成。它是由航空图像目标检测数据集(DOTA)、中国科学院大学-航空图像目标检测(UCAS-AOD)、NWPUVHR-10[20]、遥感图像目标检测(RSOD)和学习、视觉与遥感实验室(LEVIR)[16]等5个数据集组合而成。ACS数据集中有4159张遥感图像，共有27438个标记对象，包括13082架飞机，4843辆汽车和9513艘船

7.SIMD

SIMD (haroon et al.，2020) 是由巴基斯坦国立科学技术大学提出的主要用于车辆检测的目标检测数据集，包含5000幅遥感图像（图片尺寸：1024*768）和45096个实例。数据集中的实例分为15类

SIMD主要用于车辆的检测，对车辆进行了细粒度类别的注释；同时也标注了一定数量的飞机。

标注格式为HBB

8.FAIR1M

FAIR1M (Sun et al.，2021)是由中国科学院空天信息创新研究院研究团队和国际摄影测量与遥感协会合作，构建的一套目前全球规模最大的遥感图像细粒度目标识别（Fine-grAined object recognItion in high-Resolution remote sensing imagery）数据集，包含15266幅遥感图像（图片尺寸介于10001000和1000010000之间）和超过100000（1 Million）个实例。数据集中的实例分为5个大类和37个子类，5个大类分别是：飞机、船舶、汽车、球场、道路，对于飞机这一大类，包含11个飞机型号：波音737、波音747、波音777、波音787、C919、ARJ21、空客A320、空客A220、空客A330、空客A350以及不属于以上10种飞机型号的其他型号飞机

专用于细粒度型号识别，OBB

9.HRSC2016（3.48G）

HRSC2016 (Liu et al.，2016)是西北工业大学采集的用于轮船的检测的数据，包含4个大类19个小类共2976个船只实例信息。论文中特别指出他们的数据集是高分辨率数据集，分辨率介于0.4m和2m之间。数据集所有图像均来自六个著名的港口，包括海上航行的船只和靠近海岸的船只，船只图像的尺寸范围从300到1500，大多数图像大于1000x600

数据集分为Train、Test、ImageSets三个文件。Train、Test目录分为只包含船只图像的AllImages和只包含注释信息的Annotations，图像以港口序号顺序命名、以bmp格式存储，图像的注释信息以xml文件存储。此外，Test文件下的Segmentations文件还包含了船只分割图像，即语义分割的标签，以png格式存储。训练、验证和测试集分别包含436个图像（包括1207个样本）、181个图像（包括541个样本）和444个图像（包括1228个样本）。ImageSets目录下包含train.txt、val.txt、trainval.txt以及test.txt，保存了训练集、验证集、交叉验证集、测试集的图片编号.

HRSC2016采用OBB（oriented bounding box）的标注方法，提供了三类标注信息，包括bounding box、rotated bounding box和pixel-based segmentation，还包括港口、数据源、拍摄时间等额外信息

10.LEVIR

LEVIR (Shi et al.，2018)是由北航史振威教授领导的视觉与遥感实验室提出的一种新的遥感目标检测数据集，包含21952幅遥感图像（图片尺寸为600*800）和11028个实例。数据集中的实例分为3个类别：飞机、船舶、储油罐，其中，飞机实例有4724个、轮船实例有3025个、储油罐实例有3279个 LEVIR数据集容纳了大多数人类居住环境的地表特征，例如城市、乡村、山地和海洋等区域；不包含极端的陆地环境，例如沙漠和冰川。数据集中有3种类型的目标：飞机、船舶（包括近海船只和离岸船只）和储油罐。

HBB

11.xView

xView (lam et al.，2021)是由美国防部创新实验部门举行“xView探测挑战赛”时，推出的一套遥感图像细粒度目标检测数据集，包含1127幅遥感图像（图片尺寸介于20002000和40004000之间）和超过1000000个实例。数据集中的实例分为7个大类和60个子类，7个大类包括飞机、客车、卡车、铁路车辆、工程车辆、船舶和建筑物，部分子类并没有包含在大类之下，如直升机停机坪等 xView数据集的优势很明显，一是数据集大，有超过1M个实例对象；二是数据种类多，包含60个细粒度类别；三是分辨率高，使用Digital Global的WorldView-3卫星采集到的图片分辨率都在0.3m，且分辨率规格相同。同样，由于xView是以监测遥感图像中目标受损程度的比赛为导向的，数据集质量并不是很高，并且xView对于一些重要的类别的划分比较粗糙，不适合作为细粒度的分析。 HBB

FAIRM：专用于细粒度型号识别

soda-d：专用于弱小目标检测的数据集，在小目标数量，图像分辨率和数据多样性有绝对的优势

（参考了B站与博客）