YOLO

最新推荐文章于 2024-05-27 16:53:15 发布

来一包板栗

最新推荐文章于 2024-05-27 16:53:15 发布

阅读量5.7k

点赞数 15

分类专栏：文献阅读文章标签： YOLO 目标检测

本文链接：https://blog.csdn.net/qq_27871973/article/details/81235540

版权

一、背景

YOLO是近几年目标检测领域的一个创新，在以前的帖子中我们说过，目标检测在刚开始的时候，是通过提取图片的特征，比如SIFT、HOG等，这些特征是研究者人工构建的，使用Deformable Parts Model（DPM）模型，用silding window的方式来预测较高得分bounding box。这种框架非常耗时，而且精度不高。然后出现了以SS（selective search）为代表的object proposal方法，相比较sliding window穷举式的方法，在效果和计算速度上有较大的提高。随着R-CNN系列的出现，将在图像分类上表现出优越性能卷的积神经网络用于目标检测领域，奠定了“Proposal + Classification” 的方法在 Objection Detection 上的地位。但是R-CNN框架也有很多弊端，比如整个网络做不到End to End，中间训练过程需要大量的内存来存储一些特征，计算速度不够理想等。YOLO算法提出了一个新的思路，将 Object Detection 的问题转化成一个 Regression 问题，给定输入图像，直接在图像的多个位置上回归出目标的bounding box及其分类类别。

二、框架介绍

作者在文章中多次提到R-CNN系列模型做不到端到端的训练，因此每一个独立部分单独训练、保存和优化是很耗内存并且影响计算速度，YOLO则是一个单一的网络结构（卷积层+全连接层）达到目标检测的目的，其检测模型如下图Fig.1 。

如上图所示，对目标检测的过程分为三个步骤：
1、将输入图像resize到一定大小（论文中resize到448 * 448）输入卷积神经网络；
2、通过24层卷积网络和两层的全连接网络，得到一些带参数的bounding box和class probabilities ；
3、通过非极大值抑制，筛选box。

三、主要内容分析

3.1 理解grid cell

YOLO将resize后的图片划分为S*S个网格（grid cell），如果一个物体的中心落在某个网格内，则这个网格负责检测该物体。通过网络，每个网格会预测产生B个bounding box和其confidence score（置信度），以及C个类别概率。这些信心得分反映了模型对盒子包含一个物体的信心程度，以及它对盒子预测的准确性。

作者将置信度定义为：

$Pr\left ( Object \right )\ast IOU_{pred}^{truh}$

从定义可以看出置信度包含两个方面：

1、Pr(Object)表示当前bounding box中含有Object的置信度；

2、IOU(pred|truth)表示当前bounding box预测目标位置的准确性。如果bouding box内不存在物体，则Pr(Object)=0，如果包含物体，则根据预测的bounding box和真实的bounding box计算IOU。

YOLO对每一个网格预测产生的B个bounding boxes&

最低0.47元/天解锁文章

来一包板栗

关注

15
点赞
踩
124

收藏

觉得还不错? 一键收藏
7
评论
YOLO

一、背景YOLO是近几年目标检测领域的一个创新，在以前的帖子中我们说过，目标检测在刚开始的时候，是通过提取图片的特征，比如SIFT、HOG等，这些特征是研究者人工构建的，使用Deformable Parts Model（DPM）模型，用silding window的方式来预测较高得分bounding box。这种框架非常耗时，而且精度不高。然后出现了以SS（selective search）为...
复制链接

扫一扫