论文阅读——You Only Look Twice(YOLT)

1. Motivation

对高分辨率大尺寸图像的目标检测面临以下几个难点:

  • 传统的目标检测网络无法处理卫星图像尺寸(16000 ×16000),单个DigitalGlobe卫星图像包含 > 64 k m 2 >64km^2 >64km2,超过25亿像素。
  • 需要检测的对象所占物理像素很小(在高分辨率中可能只有15个像素不到),如果只是简单下采样到大部分算法所需要的输入大小。可能会导致数据丢失。

    这里使用416×416的滑动窗口,里面包含~1500个密集小物体。
  • 需要训练一个旋转不变性网络。卫星拍摄的物体往往具有不同的形状和角度,导致检测难度大。
  • 训练数据匮乏。

2. Contribution

  • 提出了YOLT,以 ≥ 5 k m 2 / s \geq 5km^2/s 5km2/s的速率评估卫星图像。
  • 在多个传感器上使用相对较少的训练数据快速检测不同尺度物体。

3. Method

3.1 Limitation of YOLOv2

YOLT是基于YOLOv2改进的:
在这里插入图片描述
Limitation:

  • 对象不寻常的角度尺寸纵横比导致检测困难
  • 处理成群物体时出现困难
  • 多个下采样导致用来预测边界框的特征比较粗糙
  • 最大输入尺寸也就~600 pixels

YOLT Contribution:

  • 数据增强——重新缩放和旋转。
  • 具有更细粒度特征和更加密集的网络架构
  • 上采样以寻找小而密集的物体
  • 多个尺度上运行一组检测器
  • 智能分区和重组大型测试图像

3.2 Network Structure

在这里插入图片描述
22层,16倍下采样,输入图像416 x 416 pixel,最终生成 26 x 26的Feature map(prediction grid)。
包括一个传递层,将最终52×52层连接到最后一个卷积层。

3.3 Test Procedure

对高分辨率图像进行预处理,把测试图用滑动窗口划分为可管理的剪切图,并通过训练模型运行每一个剪切图。分区大小具有可定义的裁剪尺寸和重叠比例(为了确保每一个区域都能被检测到)。
滑动窗口图片命名:
ImageName|row column height width.ext
在这里插入图片描述

3.4 Post-Processing

将一系列小的裁剪图(cutouts)拼接成一幅完整的大图。
对每个裁剪图,从分类器返回边框位置预测,根据其行列值进行调整——bounding box位置的预测坐标加上这幅图名字中row和column的值,就等于这个物体在未裁剪图像的预测坐标。裁剪窗口会有15%的重叠以确保图像所有部分都能检测到。并使用NMS来处理这种重叠检测。

4. Experiments

下图是对于不同尺度目标(200m,1500m)产生的误检情况。
在这里插入图片描述
这篇文章采用的方法是:利用卫星图像存在的比例信息运行两个不同尺寸的分类器,分别检测车辆+建筑物以及机场。来自多个分类器无数结果再拼接成一整张图。用NMS合并重叠检测。下图是关于汽车检测结果F1=0.95,GPU处理速度小于1秒。
在这里插入图片描述
YOLT对于机场船只上表现较好,并未对建筑足迹提取进行优化。下标显示了YOLT在不同测试数据集上性能和速度:
在这里插入图片描述

F1分数(F1-score)是分类问题的一个衡量指标。第k类的f1分数
F 1 k = 2 × p r e c i s i o n k ⋅ r e c a l l k p r e c i s i o n k + r e c a l l k F1_k = 2 × \frac{precision_k · recall_k}{precision_k + recall_k} F1k=2×precisionk+recallkprecisionkrecallk
再求和:
s o c r e = ( 1 n ∑ f 1 k ) 2 socre = (\frac{1}{n}\sum f1_k)^2 socre=(n1f1k)2

  • TP(True Positive):预测答案正确
  • FP(False Positive):错将其他类预测为本类
  • FN(False Negative):本类标签预测为其他类标
  • 精准度 / 查准率(precision):指被分类器判定正例中的正样本的比重
    p r e c i s i o n = T P T P + F P precision = \frac{TP}{TP+FP} precision=TP+FPTP
  • 召回率 / 查全率 (recall):指的是被预测为正例的占总的正例的比重
    r e c a l l = T P T P + F N recall = \frac{TP}{TP+FN} recall=TP+FNTP

该篇文章还进行了分辨率性能研究,基于COWC数据集中对象大小的一致性可以进行详细的分辨率研究。用高斯核对15厘米的原始图像进行卷积,并减少图像尺寸,以创建额外的 在[0.30, 0.45, 0.60, 0.75, 0.90, 1.05, 1.20, 1.50, 1.80, 2.10, 2.40, 3.00]米处创建额外的训练和测试语料。数据集按不同分辨率放缩结果:
在这里插入图片描述
一开始是单个模型测试多个分辨率测试数据(在0.3米处训练的),实验表面该模型外推到多个分辨率能力很差。随后是给每个分辨率训练了一个单独模型。
下图是关于不同分辨率输入下检测模型的F1值,上面的横坐标是目标的像素尺寸。可以看出随着分辨率的降低,图像中目标的像素尺寸也越来越小,检测效果(F1值)也越来越低。不过即便目标只有5个像素点,依然有很好的检测效果。
![在这里插入图片描述](https://img-blog.csdnimg.cn/1ba0c4ab72564f3cbd52393ef7635d75.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA54yr54yr5aS05LiN5YaZYnVn,size_9,color_FFFFFF,t_70,g_se,x_16

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值