YOLO系列（1～3）神经网络笔记

最新推荐文章于 2024-08-17 12:12:38 发布

Geek_of_csdn

最新推荐文章于 2024-08-17 12:12:38 发布

阅读量1.8k

点赞数

分类专栏：机器学习学习笔记文章标签： YOLO 深度学习神经网络

本文链接：https://blog.csdn.net/Geek_of_CSDN/article/details/109081805

版权

YOLO是一种快速的目标检测算法，从V1到V3不断演进。V1使用全连接层，V2和V3则变为纯CNN结构，提升了速度和准确性。V2引入了Batch Normalization、先验框和Passthrough层，V3通过多尺度特征检测增强了小物体检测能力。损失函数和预测方法也有所改变，V3采用logistic回归预测对象置信度和类别。尽管精度有所牺牲，但YOLO系列在实时性和检测效率方面表现出色。

摘要由CSDN通过智能技术生成

闲话少说，进入正题。YOLO是一种One-stage的物体检测网络¹。one-stage即直接生成物体的类别概率和位置坐标值，经过单次检测就可以直接得到结果；相对应的是two-stage甚至multi-stage，multi-stage已经淘汰，所以不提，two-stage则是将检测问题划分为两个阶段，先产生候选区域（region proposals）然后对候选区域分类（一般还需要对位置精修），Faster R-CNN之类的就属于这一类²。v1带有全连接网络，但是v2和v3都舍弃掉了全连接网络，改成了纯CNN的结构，主要目的是减少参数和加快网络的分类速度。

YOLO的速度很快，下图是YOLO V3和其他网络的检测速度对比图¹。

可以看到YOLO网络具有很强的实时性（虽然是在性能很强的GPU上跑的）。

大致了解下背景之后我们直接看网络。

V1

网络结构

直接放论文中的图：

注意上图中提到pretrain步骤中使用的图片分辨率为 $224 \times 224$ ，而在detection步骤中图片分辨率用的却是 $448 \times 448$ ，这点在后面的版本会被统一成 $448 \times 448$

或者可以表示成这张图：

可以看到，前20层是GoogleNet inception V1网络（有改动），这部分用于特征提取，以提高模型泛化能力。pretrain步骤中就是用了这部分网络来做分类任务，然后再用在Object Detection任务上。

除了最后一层用的是线性激活函数，其他层用的是leaky rectified线性激活函数。

目标检测过程

将原始图片变形成 $448 \times 448$ 大小
将图片划分成 $\times S$ 个网格（这里 $S$ 为7），每个网格预测 $B$ 个bounding box的置信度和位置（中心坐标和box的宽高）（这里 $B$ 为2）
每个网格预测 $C$ 个类别对应的概率 $\mathrm{Pr}$

结合上面的图，最后网络生成 $\times 7 \times 30$ 的输出，每个网格30维的输出，总共 $\times 7$ 个网格。每个网格预测2个bounding box的坐标 $(x, y, w, h)$ 和box内是否包含物品的confidence，以及物品属于20类别中每一类的概率（训练数据为VOC，一个20分类数据集），所以每个网格输出 $\times 2 + 2 + 20) = 30$ 的向量。

上图中图片就被划分为 $\times 7$ 的网格，每个grid（红色框选部分）对应两个不同的bounding box（黄色框）每个box由 $(x, y, w, h)$ 确定位置和大小（x和y表示位置，w和h表示宽高）。这些预测值会在训练过程中与数据集中标注的ground truth $(G x, G y, G w, G h)$ 进行对比和训练，可以计算出初始bounding box平移和伸缩得到最终位置的模型。