目标检测算法之一 YOLO初步讲解

最新推荐文章于 2023-12-19 14:12:03 发布

张博208

最新推荐文章于 2023-12-19 14:12:03 发布

阅读量484

点赞数

分类专栏： Deep Learning Computer vision Object Detection

原文链接：https://blog.csdn.net/just_a_new_life/article/details/79778385

版权

Deep Learning 同时被 3 个专栏收录

113 篇文章 2 订阅

订阅专栏

Computer vision

88 篇文章 1 订阅

订阅专栏

Object Detection

38 篇文章 0 订阅

订阅专栏

目前目标检测算法有很多，譬如：R-CNN，Faster R-CNN，DPM，RPN等等，YOLO也是其中之一，YOLO是当前目标检测算法中发展最为迅速的一个。YOLO结合了GooleNet modification和卷积神经网络的知识，可以对图像中的物体进行分类和定位。卷积神经网络对于物体分类来说效果是很好的，YOLO利用卷积层提取物体特征，通过全连接层进行分类和定位。接下来，我将大概讲一下YOLO的原理。

YOLO算法属于回归问题。

第一步：将图像划分为S*S的栅格（grid cell），如左下图，这里分成了7*7的grid cell。栅格的任务是：检测中心落在该栅格中的物体（注意，栅格中心未必与物体的中心重合，这个一定要明确，对后面的理解才不会产生影响）。

第二步：一个grid cell 可以预测B个bounding boxes（包围盒，以下简称bbox），包括预测bbox的confidence scores。bbox有五个预测值，分别是x，y（代表预测的bbox的中心与grid cell 边界的值），w，h（代表预测的bbox的width/height相对于整个图像width，height的比例），confidence（代表预测的bbox和ground truth box的IOU值）。

confidence = Pr（object） * IOU

一个bbox对应一个confidence score，如果grid cell里面没有object，confidence就是0，如果有，则confidence score等于预测的box和ground truth的IOU值，见上面公式。

在此解释一下IOU的意思，ground truth box是物体实际的位置，而IOU=bbox与ground truth box的交集/二者的并集，即交并比（重叠度），如右上图。

第三步：每个grid cell 还要预测C个conditional class probability （条件类别概率），即Pr (Class|Object)。即预测出，在grid cell包含object的条件下，该object属于某个类的概率。

注意，一个grid cell只需要预测一组（C个）类的概率，而不需要考虑bbox的数量。因为一个grid cell预测的B个bbox框住的都是同一个物体。也就是说，类别概率是针对grid cell的。

在本文中取S=7，B=2，C=20（因为PASCAL 数据集有20个类别），所以最后有7*7*30（30=B*5+C，每个bbox有5个预测值）个tensor。

测试阶段：将每个grid cell的conditional class probability与每个bbox的confidence相乘：

Pr（Class | Object） * Pr（Object） * IOU = Pr（Class） * IOU

想知道这个乘法到底是怎样实现的吗？先看下图

每个bbox的confidence和每个类别的score相乘，得到每个bbox属于哪一类的confidence score。也就是说最后会得到20*（7*7*2）=20*98的score矩阵，括号里面是bbox的数量，20代表类别。接下来的操作都是20个类别轮流进行：在某个类别中（即矩阵的某一行），将得分少于阈值（0.2）的设置为0，然后再按得分从高到低排序。最后再用NMS算法去掉重复率较大的bbox（NMS:针对某一类别，选择得分最大的bbox，然后计算它和其它bbox的IOU值，如果IOU大于0.5，说明重复率较大，该得分设为0，如果不大于0.5，则不改；这样一轮后，在选择剩下的score里面最大的那个bbox，然后计算该bbox和其它bbox的IOU，重复以上过程直到最后）。最后每个bbox的20个score取最大的score，如果这个score大于0，那么这个bbox就是这个socre对应的类别（矩阵的行），如果小于0，说明这个bbox里面没有物体，跳过即可。

前面提到了YOLO主要采用GoogLeNet，卷积层用来提取特征，全连接层用来预测图像位置和类别概率值。如下图网络设计：

YOLO网络虽然借鉴了GoogLeNet分类网络结构，但是YOLO未使用inception module，而是使用1x1卷积层（此处1x1卷积层的存在是为了跨通道信息整合）+3x3卷积层简单替代。

以上是对YOLO原理的初步理解，关于YOLO的损失函数，我们下次再讲。

参考链接：https://blog.csdn.net/u014380165/article/details/72616238

https://blog.csdn.net/hrsstudy/article/details/70305791
————————————————
版权声明：本文为CSDN博主「Erin_yu」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/just_a_new_life/article/details/79778385

张博208

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测算法之一 YOLO初步讲解

目前目标检测算法有很多，譬如：R-CNN，Faster R-CNN，DPM，RPN等等，YOLO也是其中之一，YOLO是当前目标检测算法中发展最为迅速的一个。YOLO结合了GooleNet modification和卷积神经网络的知识，可以对图像中的物体进行分类和定位。卷积神经网络对于物体分类来说效果是很好的，YOLO利用卷积层提取物体特征，通过全连接层进行分类和定位。接下来，我将大概讲一下YOL...
复制链接

扫一扫

专栏目录