YoloV1学习小总结

Haohao+++

已于 2022-03-04 14:32:01 修改

阅读量3.2k

点赞数 4

分类专栏：目标检测文章标签：学习深度学习计算机视觉目标检测

于 2022-02-23 17:38:13 首次发布

本文链接：https://blog.csdn.net/qq_42025868/article/details/123092740

版权

目标检测专栏收录该内容

5 篇文章 2 订阅

订阅专栏

1. yolov1特点

将目标检测转化为回归问题，直接从图像像素到边界框坐标和类别概率，是一个端到端目标检测模型，速度非常快。
网络使用整个图像的特征来预测每个边界框。它还可以同时预测图像中所有类的所有边界框。
将输入图像划分为一个S × S网格。如果一个对象的中心落在一个网格单元中，该网格单元负责检测该对象。
对于小物体检测效果不好。

2. 如何进行检测

yolov1使用从整张图片提取的特征中去预测每个边界框。
可以同时预测所有类别的所有边界框。
yolov1把图片分成 $\times S$ 的网格，如果物体的中心落在其中的一个网格上，那么这个网格就负责预测这个物体。
每个网格预测 $B$ 个边界框，还有这些边界框的置信度得分，置信度反映了这个模型预测的边界框包含物体还有预测的的准确率。
yolov1定义了置信度得分公式： $Pr(Object) *IOU_{pred} ^ {truth}$ ，其中 $P r (O b j e c t)$ 表示是否预测框是否包含物体， $IOU_{pred} ^ {truth}$ 表示真实框和预测框的IOU。
每个边界框有5个预测值： $x, y, w, h$ 和置信度。 $x, y$ 表示的是中心坐标，是相对于每个单元格左上角的坐标的偏移量， $w, h$ 是预测框的宽高，是相对于整个图片而言的，因此 $x, y, w, h$ 理论上的范围是[0, 1]之间的。
每个网络还要预测 $C$ 个条件类别概率，即 $Pr(Class_i|Object)$ 。
在测试时，将条件类概率与边界框的置信度预测相乘，得到每个边界框的类别置信度得分，这些分数编码了该类出现在框中的概率以及预测框适合的程度。公式为： $Pr(Class_i|Object)$ * $Pr(Object) *IOU_{pred} ^ {truth}$ = $Pr(Class_i)$ * $IOU_{pred} ^ {truth}$

在这里插入图片描述

3. 网络的设计

在这里插入图片描述

yolov1采用卷积神经网络来进行特征提取，网络结构是受到GooleNet模型设计的。yolov1有24个卷积层，还有2个全连接层，yolov1使用了1 x 1卷积减少通道数 + 3x3 卷积的结构代替了GooleNet的Inception结构，其中激活函数采用的是Leaky ReLU。最后输出的是7 x 7 x (20 + 2 x (4 +1))的预测维度。其中7 x 7代表的是分成7 x 7的网格，20代表的是PASCAL VOC数据集有20个类别，2代表每个网络预测2个边界框，4代表 $x, y, w, h$ 的四个值，1代表置信度得分。

4. 损失函数

在这里插入图片描述
因为yolov1采用的是均方差损失函数。

其中， $\lambda_{coord}=5$ , $\lambda_{noobj}=0.5$ ，边界框的损失中的 $I^{obj}_{i, j}$ 指的是第 $i$ 个单元格存在目标，且该单元格中的第 $j$ 个边界框负责预测该目标， $I^{noobj}_{i, j}$ 则表示不包含物体。