You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery
1. Motivation
对高分辨率大尺寸图像的目标检测面临以下几个难点:
- 传统的目标检测网络无法处理卫星图像尺寸(16000 ×16000),单个DigitalGlobe卫星图像包含 > 64 k m 2 >64km^2 >64km2,超过25亿像素。
- 需要检测的对象所占物理像素很小(在高分辨率中可能只有15个像素不到),如果只是简单下采样到大部分算法所需要的输入大小。可能会导致数据丢失。
这里使用416×416的滑动窗口,里面包含~1500个密集小物体。 - 需要训练一个旋转不变性网络。卫星拍摄的物体往往具有不同的形状和角度,导致检测难度大。
- 训练数据匮乏。
2. Contribution
- 提出了YOLT,以 ≥ 5 k m 2 / s \geq 5km^2/s ≥5km2/s的速率评估卫星图像。
- 在多个传感器上使用相对较少的训练数据快速检测不同尺度物体。
3. Method
3.1 Limitation of YOLOv2
YOLT是基于YOLOv2改进的:
Limitation:
- 对象不寻常的角度尺寸纵横比导致检测困难
- 处理成群物体时出现困难
- 多个下采样导致用来预测边界框的特征比较粗糙
- 最大输入尺寸也就~600 pixels
YOLT Contribution:
- 数据增强——重新缩放和旋转。
- 具有更细粒度特征和更加密集的网络架构
- 上采样以寻找小而密集的物体
- 多个尺度上运行一组检测器
- 智能分区和重组大型测试图像
3.2 Network Structure
22层,16倍下采样,输入图像416 x 416 pixel,最终生成 26 x 26的Feature map(prediction grid)。
包括一个传递层,将最终52×52层连接到最后一个卷积层。
3.3 Test Procedure
对高分辨率图像进行预处理,把测试图用滑动窗口划分为可管理的剪切图,并通过训练模型运行每一个剪切图。分区大小具有可定义的裁剪尺寸和重叠比例(为了确保每一个区域都能被检测到)。
滑动窗口图片命名:
ImageName|row column height width.ext
3.4 Post-Processing
将一系列小的裁剪图(cutouts)拼接成一幅完整的大图。
对每个裁剪图,从分类器返回边框位置预测,根据其行列值进行调整——bounding box位置的预测坐标加上这幅图名字中row和column的值,就等于这个物体在未裁剪图像的预测坐标。裁剪窗口会有15%的重叠以确保图像所有部分都能检测到。并使用NMS来处理这种重叠检测。
4. Experiments
下图是对于不同尺度目标(200m,1500m)产生的误检情况。
这篇文章采用的方法是:利用卫星图像存在的比例信息运行两个不同尺寸的分类器,分别检测车辆+建筑物以及机场。来自多个分类器无数结果再拼接成一整张图。用NMS合并重叠检测。下图是关于汽车检测结果F1=0.95,GPU处理速度小于1秒。
YOLT对于机场船只上表现较好,并未对建筑足迹提取进行优化。下标显示了YOLT在不同测试数据集上性能和速度:
F1分数(F1-score)是分类问题的一个衡量指标。第k类的f1分数
F
1
k
=
2
×
p
r
e
c
i
s
i
o
n
k
⋅
r
e
c
a
l
l
k
p
r
e
c
i
s
i
o
n
k
+
r
e
c
a
l
l
k
F1_k = 2 × \frac{precision_k · recall_k}{precision_k + recall_k}
F1k=2×precisionk+recallkprecisionk⋅recallk
再求和:
s
o
c
r
e
=
(
1
n
∑
f
1
k
)
2
socre = (\frac{1}{n}\sum f1_k)^2
socre=(n1∑f1k)2
- TP(True Positive):预测答案正确
- FP(False Positive):错将其他类预测为本类
- FN(False Negative):本类标签预测为其他类标
- 精准度 / 查准率(precision):指被分类器判定正例中的正样本的比重
p r e c i s i o n = T P T P + F P precision = \frac{TP}{TP+FP} precision=TP+FPTP - 召回率 / 查全率 (recall):指的是被预测为正例的占总的正例的比重
r e c a l l = T P T P + F N recall = \frac{TP}{TP+FN} recall=TP+FNTP
该篇文章还进行了分辨率性能研究,基于COWC数据集中对象大小的一致性可以进行详细的分辨率研究。用高斯核对15厘米的原始图像进行卷积,并减少图像尺寸,以创建额外的 在[0.30, 0.45, 0.60, 0.75, 0.90, 1.05, 1.20, 1.50, 1.80, 2.10, 2.40, 3.00]米处创建额外的训练和测试语料。数据集按不同分辨率放缩结果:
一开始是单个模型测试多个分辨率测试数据(在0.3米处训练的),实验表面该模型外推到多个分辨率能力很差。随后是给每个分辨率训练了一个单独模型。
下图是关于不同分辨率输入下检测模型的F1值,上面的横坐标是目标的像素尺寸。可以看出随着分辨率的降低,图像中目标的像素尺寸也越来越小,检测效果(F1值)也越来越低。不过即便目标只有5个像素点,依然有很好的检测效果。
![在这里插入图片描述](https://img-blog.csdnimg.cn/1ba0c4ab72564f3cbd52393ef7635d75.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA54yr54yr5aS05LiN5YaZYnVn,size_9,color_FFFFFF,t_70,g_se,x_16