fasterrcnn论文_DOTA数据集论文

最新推荐文章于 2024-07-31 11:15:08 发布

weixin_39837105

最新推荐文章于 2024-07-31 11:15:08 发布

阅读量438

点赞数

文章标签： fasterrcnn论文

更多论文解读的博客原文第一时间发布于我的github论文合集：

ming71/CV_PaperDailygithub.com

和个人博客：

chaserming71.github.io

欢迎关注，有想法欢迎一起讨论！私信评论均可。

如有markdown语法知乎显示bug不进行修改维护，请直接移步github和博客即可。文章的维护也只在git和博客进行，知乎文章除有错误外不更新。

论文发布日期：2017.11 [CVPR]

1. Introduction

1.1 区别

航空图像区别于传统数据集，有其自己的特点，面临很大的数据集偏差问题，例如导致数据集的泛化能力差： 尺度变化性更大（很好理解，如车辆和机场；而且很可能一张大图就一个目标，一个小区域反而有很多密集目标） 密集的小物体检测（如港湾、停车场） * 检测目标的不确定性：方向的随机性和尺度随机性（如桥梁这样极端的长宽比，会使anchor先验的检测效果打折扣）

1.2 数据集简介

DOTA数据集包含2806张航空图像，尺寸大约为4kx4k，包含15个类别共计188282个实例。其标注方式为四点确定的任意形状和方向的四边形（区别于传统的对边平行bbox）

2. Annotation of DOTA

数据类别
plane, ship, storage tank, baseball dia- mond, tennis court, swimming pool, ground track field, har- bor, bridge, large vehicle, small vehicle, helicopter, round- about, soccer ball field , basketball court.共计15个类，其中14个主类，small vehicle 和 large vehicle都是vehicle的子类。下图是与NWPU数据集相比实例数目。可以看出这个的样本不均衡问题还是稍微好一点的。

标注方式
没有选择(x,y,w,h)和(x,y,w,h.θ)，而是标记四个顶点八个坐标得到不规则四边形。具体是首先标注出一个初始点，为(x1,y1)然后顺时针方向依次标注234。初始点一般选择物体的头部；如果是海港这样没有明显视觉形状的对象，选择左上角为第一个点。如下图abc所示，d是传统方法标注，有很多重叠。

数据集划分
1/6验证集，1/3测试集，1/2训练集。目前发布了训练集和验证集，测试集不会发布。

3. Properties of DOTA

图像尺寸
从800x800到4000x4000不等，标注直接在原图上进行，不进行裁剪。
不同类别的尺寸

从表中可见实例还是具有很大的尺度变化性的。 * 长宽比的变化性

AR是aspect ratio，前两张分别表示水平bbox和有方向的bbox的AR比例，可以看出其长宽比的变化也是很大的。 * 目标密度
上图第三张反映的是图像包含物体数目的程度，反映了有相当一部分图片的目标十分密集。甚至过千了，这样看来，传统用于COCO检测的模型在NMS只设置100上限降低计算量的方法远远不可行了。

4.Evaluations

流行框架下的检测结果对比
从一些基本的检测网络测试基准来看，还是两阶段的效果可以，单阶段普遍不行。毕竟两阶段可以一定程度抵御类别不平衡、平移不变性等问题，特征提取更好自然不在话下，还有一种可能就是作者采用的单阶段检测器都没有采用FPN结构，所以小目标不行，而小目标占了很大部分，所以效果差也是情有可原。其中效果最好的是FR-O，也就是可旋转bbox的Faster-RCNN检测器，一方面是Faster RCNN本身好，另一方面也反映了更好的gt能够辅助学到更好的特征（虽然上下文有用比较好，但是明显斜着的舰船车辆这种带来了太大的overap，甚至框到下一辆车了，成为'hard gt'，必然劣化性能）
数据集裁剪
还有一个问题，就是DOTA数据集的尺寸太大了，普通检测网络输入会计算过慢，实际测试会进行图片的裁剪，得到1024*1024的patch，stride=512。这个过程可能将一些完整的目标分割开来，然后对分割的部分计算IoU，检测之后重新拼接回去。
检测器的缺陷