【目标检测】YOLT论文总结

最新推荐文章于 2024-04-14 21:10:55 发布

你好啊：）

最新推荐文章于 2024-04-14 21:10:55 发布

阅读量752

点赞数

分类专栏：目标检测论文文章标签： python 计算机视觉神经网络

本文链接：https://blog.csdn.net/Leomn_J/article/details/113975642

版权

目标检测论文专栏收录该内容

17 篇文章 1 订阅

订阅专栏

YOLT论文总结链接
以下为总结内容！推荐通过链接进行阅读
08.YOLT
📄论文题目
You Only Look Twice: Rapid Multi-Scale Object Detection In
Satellite Imagery
👨‍💻作者
Adam Van Eten
❓四个问题
❔要解决什么问题？
解决在卫星图像上进行目标检测，为卫星图的目标检测和常见的目标检测场景最大的区别在于卫星图像本身尺寸很大（比如16000*16000），其次目标尺寸非常小而且常常聚集在一起。对于通用目标检测算法中小目标的检测有一定的借鉴意义，同时这篇文章也列举了一些在实际项目中对效果提升有所帮助的点，也值得借鉴。
在卫星图中，用ground sample distance（GSD）表示分辨率，比如常见的卫星图像是30cm GSD。
❔使用什么方法解决问题？

卫星图目标的尺寸，方向多样。卫星图是从空中拍摄的，因此角度不固定，像船、汽车的方向都可能和常规目标检测算法中的差别较大，因此检测难度大。针对这一点的解决方案是对数据做尺度变换，旋转等数据增强操作。
小目标的检测难度大。针对这一点解决方案有下面三点。
修改网络结构，使得YOLOV2的stride变成16 *16，而不是原始的32 *32，这样有利于检测出大小在16 × 16 − > 32 × 32
2、沿用YOLOV2中的passthrough layer，融合不同尺度的特征（52 × 52 和26×26大小的特征），这种特征融合做法在目前大部分通用目标检测算法中被用来提升对小目标的检测效果。
不同尺度的检测模型融合，即Ensemble，原因是例如飞机和机场的尺度差异很大，因此采用不同尺度的输入训练检测模型，然后再融合检测结果得到最终输出。
卫星图像尺寸太大。解决方案有将原始图像切块，然后分别输入模型进行检测以及将不同尺度的检测模型进行融合。
❔实际效果如何？

❔还存在什么问题？
就本片文章在网络结构方面并没有太大的创新，而是在数据处理上的独特想法，有效的将目标检测算法应用于卫星图像检测。
✨论文概述
🔸1.Abstract
遥感图像检测挑战一：在大范围的图像中检测小目标（超小目标），1~10个像素范围。
遥感图像检测挑战二：图像过多的像素点和图像包含的地理信息多变
YOLT：可以以≥0.5km2/s的速率评估任意大小的卫星图像
1∼5像素大小的对象仍然可以很高的置信度地定位
在自然分辨率下对大的测试图像进行评估，得到F1>0.8的车辆定位分数。
F1-measure

🔹2.Introduction
YOLO（412412或512512）、Fast-Rcnn（1000600）及SDD（300300及512512）三个主流框架的图像输入大小并不能满足遥感图像的输入
由于遥感图像的独特,相关算法需要面对前景目标的空间范围、完全旋转不变性及大规模空间挑战：
小的空间范围：遥感图像的对象通常小而密集，在卫星域中，分辨率通常定义为地面采样距离(GSD)，它描述一个图像像素的物理大小（每个对象的范围在1-15像素）。市面上可获得的图像从最清晰的DigitalGlobe图像的30厘米GSD到地球图像的3−4米GSD不等。
完全旋转不变性：从高空俯瞰的物体可以有任何方向(例如，船只可以有0到360度之间的任何航向）。
训练数据相对缺乏：目前正在努力改善中（2018年）。
超高分辨率：输入图像通常是数亿像素，简单的下采样以及大多数的算法的输入大小（几百像素）是不可行的。
传感器到对象的相对恒定的距离通常是1∼400km。
GSD解释

🔸3.Related work
实现了一种独特的网络结构：具有更密集的预测网络，通过生成更加细粒度的特点来帮助区分不同的类，从而提高了性能。预测网格还允许对较小的对象和较密集的群集进行分类。
目标检测算法难以处理遥感图像的原因是很难用新的或不同寻常的横坐比概况目标（物体可以有任意方向），本文通过旋转和增加数据来解决这种问题。围绕单位圆旋转训练图像，以确保分类器与目标方向无关，并在HSV(色调-饱和度-值)中随机缩放图像，以增强分类器对不同传感器、大气条件和光照条件的鲁棒性。
大尺寸遥感图像的一些问题：首先，简单的上采样是不可行的，会大大增加运行时间。同样，滑动窗口分类的方式也让计算变得困难（每个对象要很多不同大小的窗口）
标准的YOLO网络架构无法区分质心间隔小于32像素的对象。因此，即使限制在较小的裁剪图像，在标准架构的高密度区域中的性能通常也很差。
🔹4.You Only Look Twice
在Darknet网络的基础上进行扩展并更新了一些C库，得到YOLT网络。

4.1 Network Architecture
为减少网络模型的粗糙度及提高密集问题目标检测精度，使用一个22层以及16倍下采样结构（416416 输入图像得到2626的预测网格）。为提高小目标的保真度添加穿透层（yolo2中使用过，与Resnet的特征映射相似）将52*52层连接到最后一层卷积层上，以便扩展特征图的细粒度特征。
保存最后一个卷积层的每个卷积层用泄漏整流线性激活进行批量归一化，用以保存利用线性激活的最终层，最终层提供边界框和类的预测（Nboxes 是每个网格边框的数目，Nclasses是对应的类别数目），具体公示如下：

4.2 Test Procedure
将任意大小的测试图像划分为可管理的裁剪，并在训练好的模型中运行每个裁剪。
分区通过滑动窗口进行的，其中包含用户定义的存储箱大小和重叠(默认情况下为15%，如下图)

4.3 Post-Processing
目标检测pipline中的最终步骤寻求将成百上千个测试图片整合到一个最终图像中。
对于每个裁剪，从分类器返回的边界框位置预测根据该裁剪的行值和列值进行调整；这提供了每个边界框预测在原始输入图像中的全局位置。15%重叠可确保分析所有区域，但也会导致剪切边界上的重叠检测（使用NMS的方法消除剪接边界上的重复检测）。
🔸5.Training Data
训练数据来自三个来源的大图像的小图片：DigitalGlobe卫星、行星卫星和空中平台。
Cars Te Cars Top with Context(COWC)数据集是从多个地点收集的头顶图像中收集的一组大型、高质量的带注释的汽车。数据是通过空中平台收集的，但视角最低，类似于卫星图像，将原始图像与高斯核进行卷积，并将图像维度减少一半，以创建相当于30厘米GSD图像的图像。标签只由每辆车的质心处的一个点组成，我们在每辆车周围画了一个3米的边界框以供训练之用。
Buding Footprints DigitalGlobe图像和四个城市的标记建筑足迹：拉斯维加斯、巴黎、上海和喀土穆。标签是精确的建筑物迹线，我们将其转换为包含90%的迹线范围的边界框。
Airplane:在机场上空标记了8张DigitalGlobe图像，训练集中总共有230个对象。
Boats:标记了三张在沿海地区拍摄的数字地球图像，总共有556艘船。
Airports:在37张Planet图像中为机场贴上标签，每个都有一个机场。对于机场大小的物体，需要一些下采样，因为即使是在低分辨率的Planet图像中，跑道的长度也可以超过1000像素；因此，出于训练目的，对Planet图像进行了四倍的下采样
训练细节：使用随机梯度下降进行训练，并保持YOLOV2的许多超参数：每个网格5个框，初始学习率为10−3，权重衰减为0.0005，动量为0.9%。在单个NVIDIA Titan X图形处理器上进行培训需要2个−3天
🔹6.Test Image
为了确保评估的稳健性，所有的测试图像都取自与训练样本不同的地理区域.
🔸7. Object Detection Result
7.1 Universal Classifer Object Detection
Results
首先训练一个分类器来识别上面列出的所有的5个类别，包括车辆和基础设施。在例中，有许多虚假的机场检测。

7.2 Scale Confusion Mitigation
解决错误检测结果方案：
增加训练集的大小
后处理删除任何不正确比例的检测
简单的构建双重分类器，每个相关的类别对应一个分类器
本文选择利用卫星图像中的尺度信息，运行两种不同的分类器：一种是针对车辆+建筑物进行训练的，另一种是只针对机场进行训练的。对下采样图像运行第二个机场分类器对运行时性能的影响最小，因为在给定的图像中，200米chips的数量大约是2000米chips的100倍。
7.3 Dual Classifer Results
为车辆选择了一个较低的阈值(IOU在0.3到0.4之间)，因为我们处理的是非常小的对象。对于Spacenet建筑足迹和机场，我们使用0.5的IOU

7.4 Detailed Performance Analysis

🔹8.RESOLUTION PERFORMANCE STUDY
为了研究分辨率对目标检测的影响，我们将15 cm的原始图像与高斯核进行卷积，并降低图像维度，在[0.30，0.45，0.60，0.75，0.90，1.05，1.20，1.50，1.80，2.10，2.40 ，3.00]米处建立额外的训练和测试。
在低分辨率(例如，2.4m GSD)下创建高质量的标记数据集是可能的，因为我们从已经标记的高分辨率15厘米数据中向下采样；通常，低分辨率数据很难高精度地标记。

🔹9.Conclusions
目标检测很少能很好地适应卫星图像中存在的物体大小或方向，也不是为处理数亿像素的图像而设计的。为了解决这些限制，本文实施了一种完全卷积神经网络管道(YOLT)来快速定位卫星图像中的车辆、建筑物和机场。
👀补充

附录

你好啊：）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【目标检测】YOLT论文总结

YOLT论文总结链接以下为总结内容！推荐通过链接进行阅读08.YOLT????论文题目You Only Look Twice: Rapid Multi-Scale Object Detection InSatellite Imagery????‍????作者Adam Van Eten❓四个问题❔要解决什么问题？解决在卫星图像上进行目标检测，为卫星图的目标检测和常见的目标检测场景最大的区别在于卫星图像本身尺寸很大（比如16000*16000），其次目标尺寸非常小而且常常聚集在一起。对于通用
复制链接

扫一扫