论文阅读——You Only Look Twice（YOLT）

最新推荐文章于 2021-10-09 17:38:40 发布

猫猫头不写bug

最新推荐文章于 2021-10-09 17:38:40 发布

阅读量368

点赞数

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/qq_36919342/article/details/120136845

版权

论文阅读专栏收录该内容

11 篇文章 0 订阅

订阅专栏

You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery

1. Motivation
2. Contribution
3. Method
4. Experiments

1. Motivation

对高分辨率大尺寸图像的目标检测面临以下几个难点：

传统的目标检测网络无法处理卫星图像尺寸（16000 ×16000），单个DigitalGlobe卫星图像包含 $64km^2$ ,超过25亿像素。
需要检测的对象所占物理像素很小（在高分辨率中可能只有15个像素不到），如果只是简单下采样到大部分算法所需要的输入大小。可能会导致数据丢失。

这里使用416×416的滑动窗口，里面包含~1500个密集小物体。
需要训练一个旋转不变性网络。卫星拍摄的物体往往具有不同的形状和角度，导致检测难度大。
训练数据匮乏。

2. Contribution

提出了YOLT，以 $\geq 5km^2/s$ 的速率评估卫星图像。
在多个传感器上使用相对较少的训练数据快速检测不同尺度物体。

3. Method

3.1 Limitation of YOLOv2

YOLT是基于YOLOv2改进的：
在这里插入图片描述
Limitation：

对象不寻常的角度尺寸纵横比导致检测困难
处理成群物体时出现困难
多个下采样导致用来预测边界框的特征比较粗糙
最大输入尺寸也就~600 pixels

YOLT Contribution：

数据增强——重新缩放和旋转。
具有更细粒度特征和更加密集的网络架构
上采样以寻找小而密集的物体
多个尺度上运行一组检测器
智能分区和重组大型测试图像

3.2 Network Structure

在这里插入图片描述
22层，16倍下采样，输入图像416 x 416 pixel，最终生成 26 x 26的Feature map(prediction grid)。
包括一个传递层，将最终52×52层连接到最后一个卷积层。

3.3 Test Procedure

对高分辨率图像进行预处理，把测试图用滑动窗口划分为可管理的剪切图，并通过训练模型运行每一个剪切图。分区大小具有可定义的裁剪尺寸和重叠比例(为了确保每一个区域都能被检测到)。
滑动窗口图片命名：
ImageName|row column height width.ext
在这里插入图片描述

3.4 Post-Processing

将一系列小的裁剪图（cutouts）拼接成一幅完整的大图。
对每个裁剪图，从分类器返回边框位置预测，根据其行列值进行调整——bounding box位置的预测坐标加上这幅图名字中row和column的值，就等于这个物体在未裁剪图像的预测坐标。裁剪窗口会有15%的重叠以确保图像所有部分都能检测到。并使用NMS来处理这种重叠检测。

4. Experiments

下图是对于不同尺度目标（200m,1500m）产生的误检情况。
在这里插入图片描述
这篇文章采用的方法是：利用卫星图像存在的比例信息运行两个不同尺寸的分类器，分别检测车辆+建筑物以及机场。来自多个分类器无数结果再拼接成一整张图。用NMS合并重叠检测。下图是关于汽车检测结果F1=0.95，GPU处理速度小于1秒。
在这里插入图片描述
YOLT对于机场船只上表现较好，并未对建筑足迹提取进行优化。下标显示了YOLT在不同测试数据集上性能和速度：

F1分数（F1-score）是分类问题的一个衡量指标。第k类的f1分数
$F1_k = 2 × \frac{precision_k · recall_k}{precision_k + recall_k}$
再求和：
$(\frac{1}{n}\sum f1_k)^2$

TP（True Positive）：预测答案正确
FP（False Positive）：错将其他类预测为本类
FN（False Negative）：本类标签预测为其他类标
精准度 / 查准率(precision)：指被分类器判定正例中的正样本的比重
$\frac{TP}{TP+FP}$
召回率 / 查全率 (recall)：指的是被预测为正例的占总的正例的比重
$\frac{TP}{TP+FN}$

该篇文章还进行了分辨率性能研究，基于COWC数据集中对象大小的一致性可以进行详细的分辨率研究。用高斯核对15厘米的原始图像进行卷积，并减少图像尺寸，以创建额外的在[0.30, 0.45, 0.60, 0.75, 0.90, 1.05, 1.20, 1.50, 1.80, 2.10, 2.40, 3.00]米处创建额外的训练和测试语料。数据集按不同分辨率放缩结果：
在这里插入图片描述
一开始是单个模型测试多个分辨率测试数据（在0.3米处训练的），实验表面该模型外推到多个分辨率能力很差。随后是给每个分辨率训练了一个单独模型。
下图是关于不同分辨率输入下检测模型的F1值，上面的横坐标是目标的像素尺寸。可以看出随着分辨率的降低，图像中目标的像素尺寸也越来越小，检测效果（F1值）也越来越低。不过即便目标只有5个像素点，依然有很好的检测效果。
![在这里插入图片描述](https://img-blog.csdnimg.cn/1ba0c4ab72564f3cbd52393ef7635d75.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA54yr54yr5aS05LiN5YaZYnVn,size_9,color_FFFFFF,t_70,g_se,x_16

猫猫头不写bug

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读——You Only Look Twice（YOLT）

You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery1. Motivation2. Contribution3. Method3.1 Limitation of YOLOv23.2 Network Structure3.3 Test Procedure3.4 Post-Processing4. Experiments1. Motivation对高分辨率大尺寸图像的目标检测面临以下几个难点：传统的目标检
复制链接

扫一扫

专栏目录