YOLO v1

SEREBA

已于 2022-02-21 17:42:58 修改

阅读量2.1k

点赞数

分类专栏：机器学习

于 2022-02-10 11:56:40 首次发布

本文链接：https://blog.csdn.net/SEREBA/article/details/122819849

版权

计算机视觉人工智能深度学习

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

候选区域

将图像划分成 $7 * 7 = 49$ 个网格，每个网格允许有2个预测bounding box，也就是全图像有 $7 * 7 * 2 = 98$ 个候选区域。

网络输入

yolo的输入可以是任意大小的原始图像，但是在放进网络前必须缩放成448*448的大小。
是由于网络中有两个全连接层，而全连接层需要固定输入的大小。

为什么全连接层需要固定输入的大小？

全连接层的前向传播计算公式为 $a^l=\sigma(z^l)=\sigma(W^la^{l-1}+b^l)$
当前层权重 $W^{l}$ ,上一层的输出 $a^l-1$ ，其中 $W^{l}$ 的形状是固定的。
例如：
$W^{l}$ 是(50,784)，如果输入图像大小 $a^l-1$ 为（36,36）那么压成一维后为（1296，1）则 $（ 50 * 784 ） * （ 1296 ， 1 ）$ 会出现错误无法计算。
只有固定输入 $a^l-1$ 为（28,28）压成一维后计算 $（ 50, 784 ） * （ 784, 1 ） = > (50, 1)$ 才可以正确计算。

网络输出

$7 * 7 * 30$ 的tensor
30个维度=20个对象分类概率+2个预测bounding box的位置+2个bounding box的置信度

1. 20个对象分类概率

voc数据集有20个类别，每个类别的概率 $P(C_1|object)、P(C_1|object)...P(C_i|object)$

2. 2个预测bounding box的位置

1个bounding box有4个数值表示位置信息 $center_x,center_y,width,height)$
分别表示bounding box的中心坐标、宽和高，而2个bounding box有8个数值。

3. 2个bounding box的置信度

bounding box的置信度=
该bounding box存在对象的概率*该bounding box与实际bounding box的IOU

公式： $Confidence=Pr(Object)*IOU^{truth}_{pred}$
其中 $P r (O b j e c t)$ 区别于1中的 $P(C_i|object)$ ， $P r (O b j e c t)$ 存在对象概率指的是，无论对象是哪个类别，只有存在对象即可； $P(C_i|object)$ 指的是存在对象，并且该对象是哪一个类别的概率。
$IOU^{truth}_{pred}$ 的计算：深度学习中的IoU概念理解

特别的

一张图片中检测对象数量有限制：因为图像划分为7*7=49的网格，也就是一张图片最多只可以检测49个对象。
YOLO没有预先设置好每个网格中2个bounding box的大小和形状，是对同一个对象输出2种bounding box选择IOU最大的那个作为预测该对象的bounding box。
一个对象只能由一个网格进行预测，即使这个对象跨多个网格，也只能由该对象的bounding box中心位置所落在的那个网格进行预测。该网格存在对象概率为1，其余网格存在对象概率为0。
网格数量及bounding box数量的计算，网格数量和bounding box的数量是可以改变的。
网格数量S*S，每个网格产生B个bounding box，识别C个不同类别的对象，
输出的tensor为：
$S*S*(C+B*(4+1)){|其中(4+1)是4个位置信息和1个置信度}$

损失函数

$S$ 是网格数量， $B$ 是bounding box数量， $C$ 是类别数。

bounding box边框中心点误差：
$\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}[(x_i-\hat{x_i})^2+(y_i-\hat{y_i})^2]$
其中 $\mathbb{I}_{ij}^{obj}$ 表示第i个网格第j个bounding box存在对象； $\hat{x_i},\hat{y_i}$ 实际bounding box 中心点位置， $\lambda_{coord}$ 用于调节bounding box位置误差的权重，YOLO默认为5。
bounding box宽高误差：
$\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}[(\sqrt{w_i}-\sqrt{\hat{w_i}})^2+(\sqrt{h_i}-\sqrt{\hat{h_i}})^2]$
这里宽高取了平方是因为如果数值大对误差并不敏感，但是如果数值小则对误差很敏感，为了消除误差选择这种平方的方式。
置信度误差(有对象)：
$\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}(C_i-\hat{C_i})^2$
置信度误差(无对象)：
$\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{noobj}_{ij}(C_i-\hat{C_i})^2$
其中 $\mathbb{I}_{ij}^{noobj}$ 表示第i个网格第j个bounding box不存在对象， $\lambda_{noobj}$ 在YOLO中默认为0.5。
有对象分类误差：
$\sum_{i=0}^{S^2}l^{obj}_{i}\sum_{c\,\varepsilon\,{classes}}(P_i(c)-\hat{P_i(c)})^2$
其中 $\mathbb{I}_{i}^{obj}$ 表示第i个网格存在对象
总损失函数：

$\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}[(x_i-\hat{x_i})^2+(y_i-\hat{y_i})^2]+\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}[(\sqrt{w_i}-\sqrt{\hat{w_i}})^2+(\sqrt{h_i}-\sqrt{\hat{h_i}})^2]+\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{obj}_{ij}(C_i-\hat{C_i})^2+\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}\mathbb{I}^{noobj}_{ij}(C_i-\hat{C_i})^2+\sum_{i=0}^{S^2}\mathbb{I}^{obj}_{i}\sum_{c\,\varepsilon\,{classes}}(P_i(c)-\hat{P_i(c)})^2$

训练

总共有24个卷积层和2个全连接层。前20层利用ImageNet进行预训练，后4层卷积层用随机数值初始化。
除了最后一层采用线性激活函数，其他层均用Leaky-RELU进行激活。(各种激活函数：一文搞懂激活函数)
并且采用了dropout和数据增强防止过拟合。

预测

预测中最主要用了NMS（非极大值抑制算法）

NMS

根据上面说的，网络的输出是 $7 * 7 * 30$ 的tensor，1个网格有20个类别对象的概率*2个bounding box的置信度=40个候选对象，49个网格就有 $49 * 40 = 1960$ 个候选对象，对每种对象进行NMS则 $1960 / 20 = 98$ ，每个类别有98个候选对象。
$设置阈值，把 s c o r e 低于阈值的对象去除$
$\Downarrow$
$遍历每个类别$
$\Downarrow$
$找到 98 个候选对象中选择 s c o r e 最大$
$\Downarrow$
$上面找到的候选对象与其余 s c o r e 不为 0 的候选对象之间计算 I O U$
$\Downarrow$
$去除 I O U 大于阈值的候选对象（就是重叠度很高），并设置 s c o r e = 0$
$\Downarrow$
$最后记下剩余的候选对象，返回第二个步骤，继续下一个对象$

缺陷

虽然速度很快，但是精度不如RCNN，定位不准确，召回率低。

一个网格只能预测一个类别两种bbox，当一个网格中存在两种类别时(如这两个物体重叠，中心点都在同一个网格中)，这个网格只能预测其中一个
依赖训练数据的bbox，如果预测的时候出现与训练时不同长宽比例的bbox时，泛化性低。

参考：<机器爱学习>YOLO v1深入理解
 非极大值抑制（Non-Maximum Suppression，NMS）

SEREBA

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLO v1

输入大小yolo的输入可以是任意大小的原始图像，但是在放进网络前必须缩放成480*480的大小。是由于网络中有两个全连接层，而全连接层需要固定输入的大小。为什么全连接层需要固定输入的大小？全连接层的前向传播计算公式为 al=σ(zl)=σ(Wlal−1+bl) a^l=\sigma(z^l)=\sigma(W^la^{l-1}+b^l) al=σ(zl)=σ(Wlal−1+bl)当前层权重WlW^{l}Wl,上一层的输出al−1a^l-1al−1，其中WlW^{l}Wl的形状是固定的。例如：W
复制链接

扫一扫