5分钟深入了解YOLOV1算法

最新推荐文章于 2024-04-05 16:39:31 发布

GMRCCC

最新推荐文章于 2024-04-05 16:39:31 发布

阅读量67

点赞数 1

文章标签： YOLO 算法

本文链接：https://blog.csdn.net/qq_31224965/article/details/134667651

版权

由于本文章介绍的YOLOV1过于简略，建议先对YOLOV1有一个基本的了解再来看，相信会有新的收获。

在这里插入图片描述

一个并不怎么难的CNN网络，通过1×1卷积来减少参数量，最后通过两个全连接层输出一个7×7×30的张量。

除最后一层是线性激活，其他层的激活函数选择的是用带泄漏的ReLU。

在这里插入图片描述

输入一张图片，裁剪成448×448的大小，通过CNN网络，输出一个7×7×30的张量。

张量的含义：

在这里插入图片描述

我们将图片划分为S×S的网格，每个网格生成B个预测框，预测C个类别概率。

一个预测框需要一个中心点(x,y)和长宽(w,h)来表示所处的位置和大小，最后需要一个置信度C来表示这个预测框正确的概率。所以每个预测框需要(x,y,w,h,C)5个参数。

一个网格B个预测框，加上C个类别的概率就是(5×B+C)个参数，共S×S个网格，则输出结果要是一个S×S×(5×B+C)大小的张量。

论文中取S=7，B=2，C=20，即输出7×7×30的张量，共预测了7×7×2=98个框。

在这里插入图片描述

但这98个框不可能全部使用，有些预测框内没有物体，有些预测框重复了，我们需要使用 置信度阈值 和 NMS(非极大抑制) 来进行框的筛选。

对输出的7×7×30的张量，进行如下处理：

将每个框的置信度(共7×7×2个框)和每个网格的类别概率相乘(同一个网格的框共用相同的类别概率)，得到98个长度20的张量(可以看做98×20的矩阵)，这些张量代表每个框预测不同类别的置信度。
从第一个类别开始，将低于置信度阈值的类别置信度全部置零，剩下的从大到小排列。此时预测该类别的框已经按置信度从大到小排好了。
从前往后进行非极大值抑制，即两两比较，若IOU高于阈值，将后面预测这个类别概率的框置零。
对所有类别都做一次NMS，最后得到一个稀疏矩阵。
根据稀疏矩阵中不为0的值寻找对应的框，即为最后的结果。

建议自己画矩阵重新推一遍，相信能更深入的理解。