Yolo系列算法学习笔记——YoloV1

LittleSlugBoZ

已于 2024-03-11 18:03:07 修改

阅读量1.5k

点赞数 53

分类专栏：深度学习笔记 # 深度学习算法笔记文章标签： YOLO 学习深度学习神经网络人工智能机器学习笔记

于 2024-03-11 17:16:59 首次发布

本文链接：https://blog.csdn.net/bonn1011/article/details/136628869

版权

深度学习笔记同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

深度学习算法笔记

1 篇文章 0 订阅

订阅专栏

回到目录：算法学习笔记系列索引

YOLO系列算法之 • Yolo_V1
几乎所有的深度学习算法都可以被描述为以下几个模块：网络结构，损失函数设计，数据集制作，训练和推理预测。编写本文的目的也是准备从这几个方面将自己在学习过程中的一些知识要点与心得体会整理记录下来，以便于后续温习和更好的理解掌握。此外，也希望能够从另一角度对其它准备学习该算法的人带一些帮助。

1、算法简介

Yolo_V1（论文发表时称作Yolo，V1是为了与后续版本区分）是YOLO系列算法中的开篇之作，创新性的将传统目标检测算法从two-stage变成了one-stage，即从图像中一次回归出目标位置和类型。极大提高了目标检测的速度。
Yolo_V1算法的核心理念是把目标检测转变成一个回归问题。将整个图像作为网络的输入，仅仅经过一个神经网络的处理即可得到边界框的位置及其所属的类别。通俗的讲，即通过一次回归运算实现目标检测任务。
具体实现方式是：假设将图像划分为若干个网格区域（假设为 $N{\times}N$ 个网格），每个区域负责预测一个目标。在每个区域中事先设定多个检测框来表示该区域内的目标信息（假设设为 $B$ 个框），每个检测框都有一组数量固定的参数来表示的目标信息，即目标有无、目标位置、目标类型等。这样就将目标检测算法的输出变成了一批数据（即最终有 $N{\times}N{\times}(B{\times}(有无置信度+位置)+类型)$ 个数据），再通过一个专门设计的损失函数，即可实现从图像到输出数据的回归运算。
在论文中，作者将图像大小先调整到 $448{\times}448$ ，然后将其分成了 $7{\times}7$ 个网格，每个网格中有 $2$ 个检测框。此外，作者选取的数据集为PASCAL VOC，其中包含了 $20$ 类数据用进行算法验证。因此，输出参数数量为 $7{\times}7{\times}(2{\times}5+20)=\bm{1470}$ 个。

2、网络结构

Yolo_V1的网络结构借鉴了GoogLeNet，但没有使用Inception结构，而是用了 $1{\times}1$ 降维层。网络设计如上图所示，作者原文中的插图有一些错误数据，此处已经做了修正。从输入到输出总共经过 $24$ 个卷积层和 $2$ 个全链接层，作者将这些计算层分成了 $8$ 个步骤，同时，在卷积层的每个步骤间穿插了池化层。最终得到输出的数据，并将数据按前面假设变形成与网格对应的形式。

当前网络结构有如下特点：

在 $3{\times}3$ 的卷积后接 $1{\times}1$ 卷积，既降低了计算量，也提升了模型的非线性能力。
除最后一层使用线性激活函数外，其余层都使用Leaky ReLU激活函数。
在训练中使用Dropout与数据增强的方法来防止过拟合。
第一个全连接层作用：将卷积得到的分布式特征映射到样本标记空间。即把该输入图像的所有卷积特征整合到一起。
第二个全连接层作用：将所有神经元得到的卷积特征进行维度转换，最后得到与目标检测网络输出维度相同的维度。

Yolo_V1网格结构与处理步骤说明

Step 1

将图像大小调整为 $448 * 448 * 3$ 。

Step 2

2.1、卷积运算，卷积核大小为 $7 * 7 * 3$ ，卷积核数量为 $64$ ，卷积运算步长为 $2$ 。此时数据大小变为 $224 * 224 * 64$ 。
2.2、池化运算，大小为 $2 * 2$ ，步长为 $2$ 。此时数据大小变为 $112 * 112 * 64$ 。

Step 3

3.1、卷积运算，卷积核大小为 $3 * 3 * 64$ ，卷积核数量为 $192$ ，卷积运算步长为 $1$ 。此时数据大小变为112*112*192。
3.2、池化运算，大小为 $2 * 2$ ，步长为 $2$ 。此时数据大小变为56*56*192。

Step 4

4.1、卷积运算，卷积核大小为 $1 * 1 * 192$ ，卷积核数量为 $128$ ，卷积运算步长为 $1$ 。此时数据大小变为 $56 * 56 * 128$ 。
4.2、卷积运算，卷积核大小为 $3 * 3 * 128$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $56 * 56 * 256$ 。
4.3、卷积运算，卷积核大小为 $1 * 1 * 256$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $56 * 56 * 256$ 。
4.4、卷积运算，卷积核大小为 $3 * 3 * 256$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $56 * 56 * 512$ 。
4.5、池化运算，大小为 $2 * 2$ ，步长为 $2$ 。此时数据大小变为 $28 * 28 * 512$ 。

Step 5:

5.1、卷积运算，卷积核大小为 $1 * 1 * 512$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 256$ 。
5.2、卷积运算，卷积核大小为 $3 * 3 * 256$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 512$ 。
5.3、卷积运算，卷积核大小为 $1 * 1 * 512$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 256$ 。
5.4、卷积运算，卷积核大小为 $3 * 3 * 256$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 512$ 。
5.5、卷积运算，卷积核大小为 $1 * 1 * 512$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 256$ 。
5.6、卷积运算，卷积核大小为 $3 * 3 * 256$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 512$ 。
5.7、卷积运算，卷积核大小为 $1 * 1 * 512$ ，卷积核数量为 $256$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 256$ 。
5.8、卷积运算，卷积核大小为 $3 * 3 * 256$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 512$ 。
5.9、卷积运算，卷积核大小为 $1 * 1 * 512$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 512$ 。
5.10、卷积运算，卷积核大小为 $3 * 3 * 512$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $28 * 28 * 1024$ 。
5.11、池化运算，大小为 $2 * 2$ ，步长为 $2$ 。此时数据大小变为 $14 * 14 * 1024$ 。

Step 6:

6.1、卷积运算，卷积核大小为 $1 * 1 * 1024$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $14 * 14 * 512$ 。
6.2、卷积运算，卷积核大小为 $3 * 3 * 512$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $14 * 14 * 1024$ 。
6.3、卷积运算，卷积核大小为 $1 * 1 * 1024$ ，卷积核数量为 $512$ ，卷积运算步长为 $1$ 。此时数据大小变为 $14 * 14 * 512$ 。
6.4、卷积运算，卷积核大小为 $3 * 3 * 512$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $14 * 14 * 1024$ 。
6.5、卷积运算，卷积核大小为 $3 * 3 * 1024$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $14 * 14 * 1024$ 。
6.6、卷积运算，卷积核大小为 $3 * 3 * 1024$ ，卷积核数量为 $1024$ ，卷积运算步长为 $2$ 。此时数据大小变为 $7 * 7 * 1024$ 。

Step 7:

7.1、卷积运算，卷积核大小为 $3 * 3 * 1024$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $7 * 7 * 1024$ 。
7.2、卷积运算，卷积核大小为 $3 * 3 * 1024$ ，卷积核数量为 $1024$ ，卷积运算步长为 $1$ 。此时数据大小变为 $7 * 7 * 1024$ 。

Step 8:

全链接层，数量为 $4096$ 。此时数据大小变为 $1 * 4096 * 1$ 。

Step 9:

全链接层，数量为 $1470$ 。此时数据大小变为 $1 * 1470 * 1$ 。

Step 10:

使输出与假设的网格数量对应，将形状调整为 $7 * 7$ 。此时数据大小变为 $7 * 7 * 30$ 。

3、损失函数设计

作者将目标检测转换为了回归问题，为了获取使回归运算结果误差最小的参数集，需要将训练目标定义为最小化损失函数。
模型的最后一层输出负责预测类概率和边界框坐标。在该层中使用了线性激活函数，且将所有输出数值归一化到 $[0\sim1]$ 之间，因此可直接计算输出值的平方和误差。但如果将损失函数直接定义为输出数据的平方和误差，并不完全符合最小化平均误差的目标。且这样做会导致模型不稳定，从而使得训练在早期就发散。为了弥补直接使用平方和误差的缺陷，作者专门设计了新的组合式的损失函数，利用多个权值参数和选择项参数，使平均误差计算更合理。
作者将损失函数设计如下：
$\bm{J(\theta)}\quad=\quad\bm\lambda_{\mathrm{coord}}\sum_{i=0}^{S^2}\sum_{j=0}^{B}{\Large{1}}_{ij}^{\rm{obj}}[(x_i-\hat{x}_i)^2+(y_i-\hat{y}_i)^2] \\ +\bm\lambda_{\mathrm{coord}}\sum_{i=0}^{S^2}\sum_{j=0}^{B}{\Large{1}}_{ij}^{\rm{obj}}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2+(\sqrt{h_i}-\sqrt{\hat{h}_i})^2] \\ +\sum_{i=0}^{S^2}\sum_{j=0}^{B}{\Large{1}}_{ij}^{\rm{obj}}(C_i-\hat{C}_i)^2 \\ +\bm\lambda_{\mathrm{noobj}}\sum_{i=0}^{S^2}\sum_{j=0}^{B}{\Large{1}}_{ij}^{\rm{noobj}}(C_i-\hat{C}_i)^2 \\ +\sum_{i=0}^{S^2}{\Large{1}}_{i}^{\rm{obj}}\sum_{c{\in}\rm{classes}}(p_i(c)-\hat{p}_i(c))^2 \tag{3.1}$
其中， $\bm\lambda_{\mathrm{coord}}$ 和 $\lambda_{\mathrm{noobj}}$ 是平衡误差权重参数，前者较大设为 $5$ ，后都较小设为 $0.5$ 。 ${\Large{1}}_{ij}^{\rm{obj}}$ 表示第 $i$ 个网格的第 $j$ 个检测框是否负责预测目标，预测时为 $1$ ，否则为 $0$ 。 ${\Large{1}}_{ij}^{\rm{noobj}}$ 表示第 $i$ 个网格的第 $j$ 个检测框是否负责预测目标，不预测时为 $1$ ，否则为 $0$ 。 ${\Large{1}}_{i}^{\rm{obj}}$ 表示第 $i$ 个网格是否负责预测目标，预测时为 $1$ ，否则为 $0$ 。 $C$ 为目标置信度，预测时置信度为 $[0, 1]$ 的值，标签中置信度为 $1$ 。 $p_i{c}$ 表示每个类别的概率， $c$ 为类别。预测时概率为 $[0, 1]$ 的值，标签中概率为 $1$ 和 $0$ 。

公式详解
公式中的每一行都表示一类损失元素。

第一行表示位置坐标损失，其损失误差大小直接用目标中心点的坐标 $x$ 和 $y$ 的均方差来计算。这个损失非常重要，所以有一个较大的权重参数。
第二行表示大小坐标损失，其损失误差大小直接用目标大小的宽高 $w$ 和 $h$ 的均方差来计算。这个损失非常重要，所以有一个较大的权重参数。

第二行计算时加根号的原因是当大小不同的框的预测值和真实值相差同样数值时，对大框的影响比对小框的影响小。因此引入一个开放运算 ${z^\prime=\sqrt{z}}$ ，使得同样大小的 $\Delta{z}$ 在较小 $z_1$ 处有较大的值 $\Delta{z_1^\prime}$ ，在较大 $z_2$ 时有较小的值 $\Delta{z_2^\prime}$

第三行表示包含物体的置信度损失，其损失误差大小直接用目标置信度 $C$ 的均方差来计算。这个损失一般重要，所以正常计算即可。
第二行表示不包含物体的置信度损失，其损失误差大小直接用目标置信度 $C$ 的均方差来计算。它不太重要但又不能没有，所以有一个较小的权重参数。
第二行表示类别损失，其损失误差大小直接用目标每个类别的概率 $p_i(c)$ 的均方差之和来计算。这个损失一般重要，所以正常计算即可。

4、数据集制作

4.1、数据集标注

Yolo_V1算法属于监督学习算法，所采用的训练数据是需要人工事先标注好的。数据集的标注工具可以采用一些开源的标工具（如LabelMe等），也可以自己开发标注工具软件，只需得到目标在图像中的外接矩形框数据即可。
Yolo_V1数据集标注的格式为每个图像对应一个同名的文本文件（如001.jpg/001.txt），文本文件中存储了图像中所有目标的位置及类别信息，每个目标占据一行。每行目标的数据格式为：
$\rm{类别 \quad 中心点坐标X \quad 中心点坐标Y \quad 目标宽度 \quad 目标高度}$
其中，类别编号从 $0$ 开始，所有位置信息都需要归一化处理，即中心点坐标X和目标宽度需要除去图像宽度，中心点坐标Y和目标高度需要除去图像高度。
标注好的文件如下所示：

6 0.700148 0.402841 0.0225673 0.0889295
1 0.747121 0.400667 0.0208931 0.0852561
0 0.821372 0.397336 0.0224258 0.0816718
2 0.845673 0.395819 0.0220219 0.0862745
1 0.149736 0.454767 0.0216501 0.0901321
2 0.173309 0.455001 0.0234477 0.0868308
3 0.409392 0.430519 0.0217106 0.0864021
5 0.434075 0.430767 0.0227252 0.0861191
7 0.555767 0.415482 0.0218351 0.0852946

4.2、网格与目标参数详解

论文中，作者假设将图像划分成 $7 * 7$ 大小的网格（即 $N = 7$ ），每个网格中包含 $2$ 个检测框（即 $B = 2$ ），每个检测框包含 $5$ 个元素： $\rm{CenterX，CenterY，ObjectWidth，ObjectHeight，ObjectConfidence}$ 。此外，无论每个网格设置多少检测框，都只预测一个目标的类别。

总共有 $7 * 7$ 个网格，每个网格只检测一个目标，因此，最多只能检测 $49$ 个目标。
每个网格中所有检测框共用一个类别，在训练时会选取与标签数据IoU更大的那个框负责回归该真实物体框；在测试时会选取置信度更高的那个框作为推理预测结果，另一个会被舍弃。
检测框中的目标位置元素 $\rm{CenterX，CenterY}$ 的值定义为检测框中心坐标基于当前网格归一化后与该网格的相对位置偏移量，大小在 $\{0\sim1\}$ 之间。计算方式为 $\hat{x}=\frac{x_{obj}-x_{current\;cell}}{\frac{w_{img}}{N}}=\frac{x_{obj}}{w_{img}}*N-Id_x^{\;current\;cell}$ ，同理， $\hat{y}=\frac{y_{obj}}{h_{img}}*N-Id_y^{\;current\;cell}$ 。
检测框中的目标位置元素 $\rm{ObjectWidth，ObjectHeight}$ 的值定义为检测框宽高基于全图归一化后的值，大小在 $\{0\sim1\}$ 之间。计算方式为 $\hat{w}=\frac{x_{obj}}{w_{img}}$ ，同理， $\hat{h}=\frac{y_{obj}}{h_{img}}$ 。
检测框中目标置信度 $\rm{ObjectConfidence}$ 的值定义为该检测框包含目标的概率，大小在 $\{0\sim1\}$ 之间。计算方式为 $\hat{p}=Pr(Object)*IoU\frac{truth}{pred}$ ，其中， $P r (O bj ec t)$ 包含目标时为 $1$ ，否则为 $0$ ； $IoU\frac{truth}{pred}$ 为预测边框和Ground-Truth的IoU值。
每个网格类别值取One-Hot向量形式，对每个类别计算条件概率 $Pr(Class_i|Object)$ ，大小在 $\{0\sim1\}$ 之间。在预测时，将条件概率和单个检测框的置信度值相乘，最终计算方式为 $\hat{p}_{class_i}=Pr(Class_i|Object)Pr(Object)*IoU\frac{truth}{pred}=Pr(Class_i)*IoU\frac{truth}{pred}$

4.3、标注数据生成训练标签

标注好的数据集并不能直接用于训练，而是要对标的数据进行转换，将其变成Yolo_v1假设的网格形式。具体转换方式为：

Step 1：将图像宽高调整为 $448 * 448$ ，并记录下调整过程中的图像变换参数。调整方式在训练和推理时要保持一致。为保证图像比例，可通过尺度变换结合像素填充来实现，具体可参考5.1节的图像预处理部分。
Step 2：将图像划分成 $7 * 7$ 个网格区域，并根据标注信息计算得到每个网格中的目标数据。具体方式是遍历全部分好的网格，如果有目标中心点落在当前网格，则将标注信息写到目标数据中；如果没有目标中心点落在当前网络，则将目标数据全部置为 $0$ 即可。转换完成后会得到大小为 $7*7*M_1$ 的标签数据。
Step 3：将转换好的标签数据调整为 $1*M_2*1$ 形式，用于后续训练（训练过程中，没有必要将最终数据转换成 $7 * 7 * M$ 形式，这样可以减少运算步骤）。

5、训练

目标检测是典型的监督学习，在训练集上已经标注了真实目标的位置框，而算法要使得预测框尽量去拟合真实框。监督学习的训练是通过梯度下降和反向传播等方法，迭代微调各个神经元的权重找到使损失函数最小的神经网络参数集。

5.1、训练技巧

每个网格单元包含多个检测框。在训练时，每个目标只需要一个检测框来负责。若某检测框的预测值与目标的实际值的IoU最高，则这个检测框被指定为“负责”预测该目标。
为避免过拟合，训练过程中使用了Dropout和大量的数据增强技术。作者在论文中引入高达 $20\%$ 的原始图像大小的随机缩放和平移。还在HSV色彩空间中以高达 $1.5$ 的因子随机调整图像的曝光度和饱和度。
训练之前先对输入的数据进行统一的预处理（处理方式见6.1节），然后再送到网络模型中进行训练。
对于学习率，第一个迭代周期中可以将学习率从 $10^{-3}$ 提高到 $10^{-3}$ ，这样可以避免由于梯度不稳定而发散。后续继续以 $10^{-2}$ 的学习率训练 $N_1$ 个迭代周期，然后用 $10^{-3}$ 的学习率训练 $N_2$ 个迭代周期，最后用 $10^{-4}$ 的学习率训练 $N_3$ 个迭代周期。

5.2、预训练网络

为了提高训练速度以及减小数据标注工作量，可以先在其它数据集（ImageNet 1000）上预训练一个分类网络，该分类网络设计为前20层采用与第2节中网络前20层一样的结构，然后接一个平均池化层和一个全连接层。
分类网络训练完成后，转换为第2章中的网络来训练检测任务。此时，可以复用前面预训练时的前20层网络参数，重点完成后面4个卷积层和2个全链接层的迁移学习。

5.3、优化方法选择

优化方法采用梯度下降法，该方法讲解参考深度学习优化方法详解。

6、推理预测

推理预测时，测试图像的检测只需要一次网络评估。在每张图像上网络模型会预测 $7 * 7 * 2 = 98$ 个边界框和 $7 * 7 = 49$ 的类别概率。此时，一些目标可以被多个网格单元重复预测。采用非极大值抑制方法（NMS）可以用来修正这些多重检测。

6.1、预处理

为了适应神经网络运算，通常将图像转换为同一尺寸，且将像素值归一化到 $[0\sim1]$ 之间。此时原始会经过尺度变换，边缘填充等处理后再用于网络中。在训练和预测阶段，要保证图像的预处理方式一致。
在本文中，先将图像等比例缩放到长边大小为 $448$ ，然后对短边进行边缘延拓与填充，将其大小也变为 $448$ 。然后对新图像的像素进行归一化处理，使每个像素值大小变为 $[0\sim1]$ 之间。

6.2、非极大值抑制

非极大值抑制（NMS）算法主要为了解决的一个目标被多次检测的问题，其目的是在一个区域内交叠的很多框中选一个最优的框作为最终结果。

论文中NMS具体实现步骤

Step 1：将预测结果数据中每个检测框赋予一个类别概率。实现方式是将该检测框的目标置信度乘以其对应的类别条件概率，每个框即可得到一个类别概率向量。此时可得到一个 $20 * 98$ 的矩阵，每行表示一个类别，每列表示一个检测框。
Step 2：初步筛选，将所有概率小于某个值（比如 $0.2$ ）的项的概率值直接置为 $0$ 。只保留较大的概率。
Step 3：选择一行数据进行NMS运算，即对该类别的预测框进行去重叠处理，最终只保留不重叠的预测框（此时，保留的框有可能不是真实框，因为是对当前类别进行的处理，但这个框对应的概率最大的类别不一定是当前类别。仍然这么做而不是直接选最大概率检测框的目的是有可能图中有多个该类别的物体，所以要保留IoU小于阈值的检测框，哪怕它是错误的。）。
该步骤具体实现方法是：

Step 3.1：选择某一行所有数据，先拿出最大值概率的那个框，剩下的每一个都与它做比较，如果两者的IoU大于某个阈值，则认为这俩框重复识别了同一个物体，就将其中低概率的重置成0。否则概率值保持不变。
Step 3.2：最大的那个框和其他的框比完之后，再从剩下的框找最大的，继续和其他的比，依次类推对直到该类别留下的所有框都不重叠。

Step 4：依次对每个类别重复操作Step 3，直到所有类别都只保留不重叠的预测框。
Step 5：依次对每一列数据进行处理，选择其中概率最大的类别并将其它类别概率值置为 $0$ 。最后即得到一个 $20 * 98$ 的稀疏矩阵，其中，每个元素值不为 $0$ 的项对应的检测框和类别即是最终检测到的结果。