4.3 目标检测YOLO-V3算法--设计思想&主线一：产生候选区域(百度架构师手把手带你零基础实践深度学习原版笔记系列)

最新推荐文章于 2024-09-11 22:42:49 发布

aiAIman

最新推荐文章于 2024-09-11 22:42:49 发布

阅读量1.8k

点赞数

分类专栏：深度学习文章标签：神经网络计算机视觉深度学习

本文链接：https://blog.csdn.net/coolyoung520/article/details/109153867

版权

本文介绍了YOLO-V3模型的设计思想，作为单阶段目标检测算法，它通过单个网络同时产生候选区域并预测物体类别和位置。主要内容包括锚框的生成、预测框的产生以及候选区域的标注过程，阐述了YOLO-V3如何通过卷积神经网络进行特征提取和物体检测。

摘要由CSDN通过智能技术生成

4.3 目标检测YOLO-V3算法--设计思想&主线一：产生候选区域(百度架构师手把手带你零基础实践深度学习原版笔记系列)

单阶段目标检测模型YOLO-V3

R-CNN系列算法需要先产生候选区域，再对候选区域做分类和位置坐标的预测，这类算法被称为两阶段目标检测算法。近几年，很多研究人员相继提出一系列单阶段的检测算法，只需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标。

与R-CNN系列算法不同，YOLO-V3使用单个网络结构，在产生候选区域的同时即可预测出物体类别和位置，不需要分成两阶段来完成检测任务。另外，YOLO-V3算法产生的预测框数目比Faster R-CNN少很多。Faster R-CNN中每个真实框可能对应多个标签为正的候选区域，而YOLO-V3里面每个真实框只对应一个正的候选区域。这些特性使得YOLO-V3算法具有更快的速度，能到达实时响应的水平。

Joseph Redmon等人在2015年提出YOLO（You Only Look Once，YOLO）算法，通常也被称为YOLO-V1；2016年，他们对算法进行改进，又提出YOLO-V2版本；2018年发展出YOLO-V3版本。

YOLO-V3 模型设计思想

YOLO-V3算法的基本思想可以分成两部分：

按一定规则在图片上产生一系列的候选区域，然后根据这些候选区域与图片上物体真实框之间的位置关系对候选区域进行标注。跟真实框足够接近的那些候选区域会被标注为正样本，同时将真实框的位置作为正样本的位置目标。偏离真实框较大的那些候选区域则会被标注为负样本，负样本不需要预测位置或者类别。
使用卷积神经网络提取图片特征并对候选区域的位置和类别进行预测。这样每个预测框就可以看成是一个样本，根据真实框相对它的位置和类别进行了标注而获得标签值，通过网络模型预测其位置和类别，将网络预测值和标签值进行比较，就可以建立起损失函数。

YOLO-V3算法训练过程的流程图如图8 所示：

图8：YOLO-V3算法训练流程图

图8 左边是输入图片，上半部分所示的过程是使用卷积神经网络对图片提取特征，随着网络不断向前传播，特征图的尺寸越来越小，每个像素点会代表更加抽象的特征模式，直到输出特征图，其尺寸减小为原图的1/32
图8 下半部分描述了生成候选区域的过程，首先将原图划分成多个小方块，每个小方块的大小是32×32，然后以每个小方块为中心分别生成一系列锚框，整张图片都会被锚框覆盖到。在每个锚框的基础上产生一个与之对应的预测框，根据锚框和预测框与图片上物体真实框之间的位置关系，对这些预测框进行标注。
将上方支路中输出的特征图与下方支路中产生的预测框标签建立关联，创建损失函数，开启端到端的训练过程。

接下来具体介绍流程中各节点的原理和代码实现。