深入理解目标检测与YOLO（从v1到v3）

图灵的猫.

已于 2022-09-18 11:38:53 修改

阅读量6k

点赞数 9

于 2018-06-14 16:20:54 首次发布

本文链接：https://blog.csdn.net/qq_39521554/article/details/80694512

版权

Introduction

YOLO之前的物体检测方法主要是通过region proposal产生大量的可能包含待检测物体的 potential bounding box，再用分类器去判断每个 bounding box里是否包含有物体，以及物体所属类别的 probability或者 confidence，如R-CNN,Fast-R-CNN,Faster-R-CNN等。一直以来，在计算机视觉领域有一个问题待解决，那就是如何检测两个距离很近的同类的目标或不同类目标？

大多数的算法都会对输入的图像数据进行尺度变化，缩放到较小的分辨率情况下，但是一般在这总情况下只会给出一个Bounding Box，主要由于特征提取过程中将这总情况人为是一个目标。（本来就很近，一放缩之间的近距离越发明显了），但是实际这是两个相同或不同的目标。这个难题就是目标检测领域内的一个挑战。对小目标检测，有很多新的算法，但是YOLO V3版本却做到了，它对这种距离很近的目标或者小目标有很好的鲁棒性，虽然不能百分百检测，但是这个难题得到了很大程度的解决。

YOLO的V1和V2都不如SSD的算法，主要原因是V1的448尺寸和V2版本的416尺寸都不如SSD的300，以上结论都是实验测试的，V3版本的416应该比SSD512好，可见其性能。YOLO不同于这些物体检测方法，它将物体检测任务当做一个regression问题来处理，使用一个神经网络，直接从一整张图像来预测出bounding box 的坐标、box中包含物体的置信度和物体的probabilities。因为YOLO的物体检测流程是在一个神经网络里完成的，所以可以end to end来优化物体检测性能。

YOLO检测物体的速度很快，标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。网络较小的版本Fast YOLO在保持mAP是之前的其他实时物体检测器的两倍的同时，检测速度可以达到155 FPS。

相较于其他的state-of-the-art 物体检测系统，YOLO在物体定位时更容易出错，但是在背景上预测出不存在的物体（false positives）的情况会少一些。而且，YOLO比DPM、R-CNN等物体检测系统能够学到更加抽象的物体的特征，这使得YOLO可以从真实图像领域迁移到其他领域，如艺术。

What is Yolo?

YOLO之前的物体检测系统使用分类器来完成物体检测任务。为了检测一个物体，这些物体检测系统要在一张测试图的不同位置和不同尺寸的bounding box上使用该物体的分类器去评估是否有该物体。如DPM系统，要使用一个滑窗（sliding window）在整张图像上均匀滑动，用分类器评估是否有物体。

在DPM之后提出的其他方法，如R-CNN方法使用region proposal来生成整张图像中可能包含待检测物体的potential bounding boxes，然后用分类器来评估这些boxes，接着通过post-processing来改善bounding boxes，消除重复的检测目标，并基于整个场景中的其他物体重新对boxes进行打分。整个流程执行下来很慢，而且因为这些环节都是分开训练的，检测性能很难进行优化。

作者设计了YOLO（you only look once），将物体检测任务当做回归问题（regression problem）来处理，直接通过整张图片的所有像素得到bounding box的坐标、box中包含物体的置信度和class probabilities。通过YOLO，每张图像只需要看一眼就能得出图像中都有哪些物体和这些物体的位置。

这里写图片描述

如图所示，使用YOLO来检测物体，其流程是非常简单明了的：
1、将图像resize到448 * 448作为神经网络的输入
2、运行神经网络，得到一些bounding box坐标、box中包含物体的置信度和class probabilities
3、进行非极大值抑制，筛选Boxes

下图是各物体检测系统的检测流程对比：

这里写图片描述

YOLO模型相对于之前的物体检测方法有多个优点：

1、YOLO检测物体非常快。
因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、YOLO可以很好的避免背景错误，产生false positives。
不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、YOLO可以学到物体的泛化特征。
当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这

最低0.47元/天解锁文章

图灵的猫.

关注

9
点赞
踩
42

收藏

觉得还不错? 一键收藏
打赏
4
评论
深入理解目标检测与YOLO（从v1到v3）

对小目标检测，有很多新的算法，但是YOLO V3版本却做到了，它对这种距离很近的目标或者小目标有很好的鲁棒性，虽然不能百分百检测，但是这个难题得到了很大程度的解决。YOLO V2是一个纵向自上而下的网络架构，随着通道数目的不断增加，FLOPS是不断增加的，而V3网络架构是横纵交叉的，看着卷积层多，其实很多通道的卷积层没有继承性，另外，虽然V3增加了anchor centroid，但是对GT的估计变得更加简单，每个GT只匹配一个先验框，而且每个尺度只预测3个框，V2预测5个框，这样的话也降低了复杂度。
复制链接

扫一扫