第四章：目标检测YoloV3（中）

最新推荐文章于 2023-05-31 11:18:25 发布

旅人_Eric

最新推荐文章于 2023-05-31 11:18:25 发布

阅读量859

点赞数 3

分类专栏：飞浆Paddle学习

本文链接：https://blog.csdn.net/qq_37099552/article/details/108290669

版权

YOLO-V3是一种单阶段目标检测算法，它使用单个网络同时产生候选区域并预测物体类别和位置，避免了两阶段算法的复杂性。YOLO-V3通过在图片上生成锚框，然后通过卷积神经网络提取特征并计算预测框位置和类别。模型设计包括候选区域的标注、特征提取、预测框计算和损失函数。YOLO-V3因其高效和实时性而受到关注。

摘要由CSDN通过智能技术生成

单阶段目标检测模型YOLO-V3

上面介绍的R-CNN系列算法需要先产生候选区域，再对候选区域做分类和位置坐标的预测，这类算法被称为两阶段目标检测算法。近几年，很多研究人员相继提出一系列单阶段的检测算法，只需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标。

与R-CNN系列算法不同，YOLO-V3使用单个网络结构，在产生候选区域的同时即可预测出物体类别和位置，不需要分成两阶段来完成检测任务。另外，YOLO-V3算法产生的预测框数目比Faster R-CNN少很多。

Faster R-CNN中每个真实框可能对应多个标签为正的候选区域
YOLO-V3里面每个真实框只对应一个正的候选区域。这些特性使得YOLO-V3算法具有更快的速度，能到达实时响应的水平。

发展历程：

Joseph Redmon等人在2015年提出YOLO（You Only Look Once，YOLO）算法，通常也被称为YOLO-V1；
2016年，他们对算法进行改进，又提出YOLO-V2版本；
2018年发展出YOLO-V3版本。

YOLO-V3 模型设计思想

YOLO-V3算法的基本思想可以分成两部分：

按一定规则在图片上产生一系列的候选区域，然后根据这些候选区域与图片上物体真实框之间的位置关系对候选区域进行标注。跟真实框足够接近的那些候选区域会被标注为正样本，同时将真实框的位置作为正样本的位置目标。偏离真实框较大的那些候选区域则会被标注为负样本，负样本不需要预测位置或者类别。
使用卷积神经网络提取图片特征并对候选区域的位置和类别进行预测。这样每个预测框就可以看成是一个样本，根据真实框相对它的位置和类别进行了标注而获得标签值，通过网络模型预测其位置和类别，将网络预测值和标签值进行比较，就可以建立起损失函数。

YOLO-V3算法训练过程的流程图如图8 所示：

图8：YOLO-V3算法训练流程图

图8 左边是输入图片，上半部分所示的过程是使用卷积神经网络对图片提取特征，随着网络不断向前传播，特征图的尺寸越来越小，每个像素点会代表更加抽象的特征模式，直到输出特征图，其尺寸减小为原图的 $\frac{1}{32}$ 。
图8 下半部分描述了生成候选区域的过程，首先将原图划分成多个小方块，每个小方块的大小是 $32 \times 32$ ，然后以每个小方块为中心分别生成一系列锚框，整张图片都会被锚框覆盖到。在每个锚框的基础上产生一个与之对应的预测框，根据锚框和预测框与图片上物体真实框之间的位置关系，对这些预测框进行标注。
将上方支路中输出的特征图与下方支路中产生的预测框标签建立关联，创建损失函数，开启端到端的训练过程。

接下来具体介绍流程中各节点的原理和代码实现。

产生候选区域

如何产生候选区域，是检测模型的核心设计方案。目前大多数基于卷积神经网络的模型所采用的方式大体如下：

按一定的规则在图片上生成一系列位置固定的锚框，将这些锚框看作是可能的候选区域。
对锚框是否包含目标物体进行预测，如果包含目标物体，还需要预测所包含物体的类别，以及预测框相对于锚框位置需要调整的幅度。

生成锚框

将原始图片划分成 $m\times n$ 个区域，如下图所示，原始图片高度 $H = 640$ , 宽度 $W = 480$ ，如果我们选择小块区域的尺寸为 $32 \times 32$ ，则 $m$ 和 $n$ 分别为：

$\frac{640}{32} = 20$

$\frac{480}{32} = 15$

如图9 所示，将原始图像分成了20行15列小方块区域。

图9：将图片划分成多个32x32的小方块

YOLO-V3算法会在每个区域的中心，生成一系列锚框。为了展示方便，我们先在图中第十行第四列的小方块位置附近画出生成的锚框，如 图10 所示。

注意：

这里为了跟程序中的编号对应，最上面的行号是第0行，最左边的列号是第0列**

图10：在第10行第4列的小方块区域生成3个锚框

图11 展示在每个区域附近都生成3个锚框，很多锚框堆叠在一起可能不太容易看清楚，但过程跟上面类似，只是需要以每个区域的中心点为中心，分别生成3个锚框。

图11：在每个小方块区域生成3个锚框

生成预测框

在前面已经指出，锚框的位置都是固定好的，不可能刚好跟物体边界框重合，需要在锚框的基础上进行位置的微调以生成预测框。预测框相对于锚框会有不同的中心位置和大小，采用什么方式能得到预测框呢？我们先来考虑如何生成其中心位置坐标。

比如上面图中在第10行第4列的小方块区域中心生成的一个锚框，如绿色虚线框所示。以小方格的宽度为单位长度，

此小方块区域左上角的位置坐标是：
$c_x = 4$
$c_y = 10$

此锚框的区域中心坐标是：
$center\_x = c_x + 0.5 = 4.5$
$center\_y = c_y + 0.5 = 10.5$

可以通过下面的方式生成预测框的中心坐标：
$b_x = c_x + \sigma(t_x)$
$b_y = c_y + \sigma(t_y)$

其中 $t_x$ 和 $t_y$ 为实数， $\sigma(x)$ 是我们之前学过的Sigmoid函数，其定义如下：

$\sigma(x) = \frac{1}{1 + exp(-x)}$

由于Sigmoid的函数值在 $\thicksim 1$ 之间，因此由上面公式计算出来的预测框的中心点总是落在第十行第四列的小区域内部。

当 $t_x=t_y=0$ 时， $b_x = c_x + 0.5$ ， $b_y = c_y + 0.5$ ，预测框中心与锚框中心重合，都是小区域的中心。

锚框的大小是预先设定好的，在模型中可以当作是超参数，下图中画出的锚框尺寸是

$p_h = 350$
$p_w = 250$

通过下面的公式生成预测框的大小：

$b_h = p_h e^{t_h}$
$b_w = p_w e^{t_w}$

如果 $t_x=t_y=0, t_h=t_w=0$ ，则预测框跟锚框重合。

如果给 $t_x, t_y, t_h, t_w$ 随机赋值如下：

$t_x = 0.2, t_y = 0.3, t_w = 0.1, t_h = -0.12$

则可以得到预测框的坐标是(154.98, 357.44, 276.29, 310.42)，如 图12 中蓝色框所示。

说明：
这里坐标采用 $x y w h$ 的格式。

图12：生成预测框

这里我们会问：当 $t_x, t_y, t_w, t_h$ 取值为多少的时候，预测框能够跟真实框重合？为了回答问题，只需要将上面预测框坐标中的 $b_x, b_y, b_h, b_w$ 设置为真实框的位置，即可求解出 $t$ 的数值。

令：
$\sigma(t^*_x) + c_x = gt_x$
$\sigma(t^*_y) + c_y = gt_y$
$p_w e^{t^*_w} = gt_h$
$p_h e^{t^*_h} = gt_w$

可以求解出 $t^*_x, t^*_y, t^*_w, t^*_h)$

如果 $t$ 是网络预测的输出值，将

最低0.47元/天解锁文章

旅人_Eric

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
第四章：目标检测YoloV3（中）

目录单阶段目标检测模型YOLO-V3YOLO-V3 模型设计思想产生候选区域生成锚框生成预测框对候选区域进行标注标注锚框是否包含物体标注预测框的位置坐标标签标注锚框包含物体类别的标签标注锚框的具体程序卷积神经网络提取特征根据输出特征图计算预测框位置和类别建立输出特征图与预测框之间的关联计算预测框是否包含物体的概率计算预测框位置坐标计算物体属于每个类别概率损失函数单阶段目标检测模型YOLO-V3上面介绍的R-CNN系列算法需要先产生候选区域，再对候选区域做分类和位置坐标的预测，这类算法被称为两阶段目标检测
复制链接

扫一扫

专栏目录