【深度学习YOLO系列】对YOLO v1的解读

最新推荐文章于 2021-03-30 16:36:16 发布

进击的Explorer

最新推荐文章于 2021-03-30 16:36:16 发布

阅读量530

点赞数 2

分类专栏：算法

本文链接：https://blog.csdn.net/jpc20144055069/article/details/105935898

版权

算法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

在YOLO系列中，YOLOv1是整个系列的基础，也是很经典的一种算法，同时我也完成了一些对v2和v3的解读：
YOLOv2的解读：《【深度学习YOLO系列】对YOLO v2的解读》
YOLOv3的解读：《【深度学习YOLO系列】对YOLO v3的解读》

YOLO v1结构

它的核心思想就是利用整张图作为网络的输入，将目标检测作为回归问题解决，直接在输出层回归预选框的位置及所属的类别。输入图像大小为 $448 * 448$ ，将其分割成了 $7 \times 7 = 49$ 个网络，每个网格要预测两个 $bounding\ box$ （候选框）的坐标 $(x, y, w, h)$ 和 $b o x$ 内是否包含物体的置信度 $c o n f i d e n c e$ (每个 $bounding\ box$ 有一个 $c o n f i d e n c e$ )，以及物体属于 $20$ 类别中每一类的概率（ $YOLO\ v1$ 的训练数据集为 $v o c 2012$ ，它是一个 $20$ 分类的数据集）。所以一个网格对应一个 $（ 4 \times 2 + 2 + 20 ） = 30$ 维的向量。

如下图所示， $7 \times 7$ 网格内的每一个grid（红色框），对应两个大小形状不同的 $bounding\ box$ （黄色框）。每个box的位置坐标为 $(x ， y ， w ， h)$ ， $x$ 和 $y$ 表示 $b o x$ 中心点与该格子边界的相对值， $w$ 和 $h$ 表示预测 $b o x$ 的宽度和高度相对于整幅图像的宽度和高度的对比。 $（ x ， y ， w ， h ）$ 会限制在 $[0, 1]$ 之间。与训练数据集上标定的物体真实坐标 $（ G x, G y, G w, G h ）$ 进行对比训练，每个 $g r i d$ 负责检查中心落在该格子的物体。

这个置信度只是为表达 $b o x$ 内有无物体的概率（类似于 $Faster\ R-CNN$ 中 $R P N$ 层的 $s o f t m a x$ 预测 $a n c h o r$ 是前景还是背景的概率），并不预测box内物体属于哪一类。

$c o n f i d e n c e$ 置信度

$Pr(Object)*IOU^{truth}_{pred}$

其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的IOU。值越大则box越接近真实位置。

confidence是针对bounding box的，每个网格有两个bounding box，所以每个网格会有两个confidence与之对应。

YOLO v1预测工作流程

1、每一个格子得到两个bounding boxes
2、每个网格预测的class信息和bounding boxes预测的confidence信息相乘，得到每个bounding box预测具体物体的概率和位置重叠的概率PrIOU
$Pr(Class_i|Object)*Pr(Object)*IOU^{truth}_{pred} = Pr(class_i)*IOU^{truth}_{pred}$
3、对于每一个类别，对PrIOU进行排序，去除小于阈值的PrIOU，然后做非极大值抑制。

YOLO v1代价函数

YOLO v1的loss function如下所示，包含三部分：位置误差、confidence误差、分类误差。

YOLO v1的图解如下所示：

loss代价函数中 $w$ 为什么要开根号 $\sqrt{w}$ ?

如下图所示：绿色为bounding box，红色为真实标注。如果w和h没有平方根，那么bounding box跟两个真实标注的位置loss是相同的，但是从面积看来B框是A框的25倍，C框是B框的81/25倍，B框跟A框的大小偏差更大，不应该得到相同的loss。

如果w和h加上平方根，那么B对于A的位置loss约为3.06，B对C的位置约为1.17，B对A的位置loss的值更大，更符合我们的实际判断。

YOLO v1代价函数的weight（权重）说明

不同的任务重要程度不同，所以也应给予不同的loss weight:

1).每个网格两个预测框坐标比较重要，给这些损失前面赋予更大的loss weight，在pascal VOC取值为5。

2).对没有object的box的confidence loss，赋予小的loss weight，在pascal VOC训练中取0.5.

3).有object的box的confidence loss和类别的loss的loss weight正常取1。

YOLO v1的缺点

1、每个网格只对应两个bounding box，当物体的长款比不常见（也就是训练数据集覆盖不到时），效果较差。

2、原始图片只划分7×7的网格，当两个物体靠的很近时，效果比较差。

3、最终每个网格只对应一个类别，容易出现漏检（物体没有被识别到）。

4、每个图片中比较小的物体，效果比较差。

参考：
论文下载
 darknet版的代码下载
 tensorflow版本的代码下载

进击的Explorer

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【深度学习YOLO系列】对YOLO v1的解读

YOLO v1结构它的核心思想就是利用整张图作为网络的输入，将目标检测作为回归问题解决，直接在输出层回归预选框的位置及所属的类别。输入图像大小为448∗448448*448448∗448，将其分割成了7×7=497×7=497×7=49个网络，每个网格要预测两个bounding boxbounding\ boxbounding box（候选框）的坐标 (x,y,w,h)(x,...
复制链接

扫一扫

专栏目录