fasterrcnn论文_DOTA数据集论文

9a0b9ef73ac4c92e851966a9117262da.png

更多论文解读的博客原文第一时间发布于我的github论文合集:

ming71/CV_PaperDaily​github.com
648853f810981cec263afd68863fe370.png

和个人博客:

chaser​ming71.github.io
3aa7126f3e3abd6a8aee98175f003951.png

欢迎关注,有想法欢迎一起讨论!私信评论均可。

如有markdown语法知乎显示bug不进行修改维护,请直接移步github和博客即可。文章的维护也只在git和博客进行,知乎文章除有错误外不更新。

论文发布日期:2017.11 [CVPR]

1. Introduction

1.1 区别

航空图像区别于传统数据集,有其自己的特点,面临很大的数据集偏差问题,例如导致数据集的泛化能力差: 尺度变化性更大(很好理解,如车辆和机场;而且很可能一张大图就一个目标,一个小区域反而有很多密集目标) 密集的小物体检测(如港湾、停车场) * 检测目标的不确定性:方向的随机性和尺度随机性(如桥梁这样极端的长宽比,会使anchor先验的检测效果打折扣)

1.2 数据集简介

DOTA数据集包含2806张航空图像,尺寸大约为4kx4k,包含15个类别共计188282个实例。其标注方式为四点确定的任意形状和方向的四边形(区别于传统的对边平行bbox)

2. Annotation of DOTA

  • 数据类别
    plane, ship, storage tank, baseball dia- mond, tennis court, swimming pool, ground track field, har- bor, bridge, large vehicle, small vehicle, helicopter, round- about, soccer ball field , basketball court.共计15个类,其中14个主类,small vehicle 和 large vehicle都是vehicle的子类。 下图是与NWPU数据集相比实例数目。可以看出这个的样本不均衡问题还是稍微好一点的。

902e0d2e6ba0f7234b8db758baef94e6.png
  • 标注方式
    没有选择(x,y,w,h)和(x,y,w,h.θ),而是标记四个顶点八个坐标得到不规则四边形。具体是首先标注出一个初始点,为(x1,y1)然后顺时针方向依次标注234。初始点一般选择物体的头部;如果是海港这样没有明显视觉形状的对象,选择左上角为第一个点。如下图abc所示,d是传统方法标注,有很多重叠。

cb958511b0b8c9dd0edb7b5c491d6c04.png
  • 数据集划分
    1/6验证集,1/3测试集,1/2训练集。目前发布了训练集和验证集,测试集不会发布。

3. Properties of DOTA

  • 图像尺寸
    从800x800到4000x4000不等,标注直接在原图上进行,不进行裁剪。
  • 不同类别的尺寸

3688404c88fcdeff81d477f1b7406b7b.png

从表中可见实例还是具有很大的尺度变化性的。 * 长宽比的变化性

a06140464924c8b7ffe9a7c900b05eb4.png

AR是aspect ratio,前两张分别表示水平bbox和有方向的bbox的AR比例,可以看出其长宽比的变化也是很大的。 * 目标密度
上图第三张反映的是图像包含物体数目的程度,反映了有相当一部分图片的目标十分密集。甚至过千了,这样看来,传统用于COCO检测的模型在NMS只设置100上限降低计算量的方法远远不可行了。

4.Evaluations

  • 流行框架下的检测结果对比
    从一些基本的检测网络测试基准来看,还是两阶段的效果可以, 单阶段普遍不行。毕竟两阶段可以一定程度抵御类别不平衡、平移不变性等问题,特征提取更好自然不在话下,还有一种可能就是作者采用的单阶段检测器都没有采用FPN结构,所以小目标不行,而小目标占了很大部分,所以效果差也是情有可原。其中效果最好的是FR-O,也就是可旋转bbox的Faster-RCNN检测器,一方面是Faster RCNN本身好,另一方面也反映了更好的gt能够辅助学到更好的特征(虽然上下文有用比较好,但是明显斜着的舰船车辆这种带来了太大的overap,甚至框到下一辆车了,成为'hard gt',必然劣化性能)
  • 数据集裁剪
    还有一个问题,就是DOTA数据集的尺寸太大了,普通检测网络输入会计算过慢,实际测试会进行图片的裁剪,得到1024*1024的patch,stride=512。这个过程可能将一些完整的目标分割开来,然后对分割的部分计算IoU,检测之后重新拼接回去。
  • 检测器的缺陷

3e129e5284b3466b08c097922b3411ba.png

上图反映的问题:ab对比没啥,OBB好于HBB;cd对比发现OBB不行了,因为OBB方法更贴近真实长宽比,其中就容易出现这种极大长宽比的情况难以回归(推测是anchor的先验偏离);ef的海港回归都不怎么样,密集样本的检测都有缺陷 (推测加FPN就好点了吧)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值