YOLOv1精读笔记

「已注销」

已于 2023-03-10 18:41:28 修改

阅读量287

点赞数

分类专栏：目标检测论文精读文章标签：计算机视觉深度学习人工智能

于 2022-10-30 20:21:43 首次发布

本文链接：https://blog.csdn.net/qq_38836499/article/details/127604259

版权

目标检测论文精读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

YOLO精读笔记

论文题目：You Only Look Once: Unified, Real-Time Object Detection

我的总结

文中实现的是先将图像划分成7*7的网格，每个网格生成2个预测边界框，每个边界框又包括中心点位置坐标和宽高以及是不是一个物体的置信度；同时网格又会得到一个概率，即假设它已经包含物体的情况下它属于某一个类别的概率。

最终该网络输出的是一个7*7*30的张量，其中7*7对应图像的网格划分，30中的1-5表示第一个边界框的中心位置和长宽，对应的6-10表示第二个边界框的中心位置和长宽，11-30则表示这个网格属于某个类别的概率（论文中测试的数据集有20个类别）。

最终某个网格的条件概率乘以这个网格对应的边界框的置信度（即有物品的概率）就可以得到这个边界框中有某个类别的概率（得到20个概率值）。

Introduction

作者简略的总结了一下前人的工作，并且指出之前的目标检测的算法复杂、慢而且难以调整。

作者将目标检测问题重新描述为一个回归问题，直接从图像得到边界框和分类类别，即使用这种方法只需要看一次图像（You Only Look Once）就能得到对象的类别和位置。

论文中提出的模型时只使用一个单独的卷积神经网络可以同时得出多个边界框和这些边界框中目标的类别，这种方法有几个特点：

YOLO非常快，甚至可以直接在视频上进行操作，延迟不超过25ms
精度高，达到了其他实时检测系统精度的两倍以上
可以结合整个图像的信息进行分类，减少了对背景的错误判断
可以学习到总体特征，在应用于新输入时故障的发生会减少
在准确度方面仍不够最先进的目标检测系统高，特别是对于一些小的物体

Unified Detection

这个算法将输入图像分割为 $S\times S$ 的格子，如果某个物体的中心落在一个格子中，那么这个格子就要对这个物体负责。

每个格子预测B个边界框并且得到对于这些边界框的置信度，置信度用于表示模型有多大把握认为边界框里有物品和模型对于这个边界框准确性的判断。置信度定义为 $Pr(Object)*IoU_{pred}^{truth},$ 如果没有物品在某个边界框内，那么这个边界框的置信度应该为0；如果有物品，则希望置信度等于预测边界框和真实边界框的IoU值。

每个边界框包括五个信息： $x, y, w, h$ 和置信度，其中 $(x, y)$ 表示边界框相对于网格划分的中心，高和宽则是相对于整个图像而言的，置信度表示预测边界框和任意真实边界框的IoU值。

每个网格预测了C类的条件概率，即 $Pr(Class_i|Object)$ ，这代表了有物品的网格内有某个类别物品的概率，将其与每个边界框的置信度相乘可以得到 $Pr(Class_i|Object)*Pr(Object)*IoU_{pred}^{truth}=Pr(Class_i)*IoU_{pred}^{truth},$ 这个就是每个格子内特定类别的置信度分数，这个分数代表了某个累呗出现在格子里和模型预测的良好程度。

Network Design

卷积层部分提取图像的特征，全连接层输出类别概率和边界框坐标。

Training

在ImageNet上进行卷积层的预训练，同时论文“S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015.”指出在预训练的网络上增加卷积层和全连接层可以提高模型的表现，所以这篇论文上也用了这个方法。

同时，使用图像的高和宽初始化边界框的高和宽，使其落到0到1内；将边界框的中心坐标设置为对特定网格党员的偏移量，使其也落入0到1内。

除了最后一层，别的层均使用Leaky ReLu激活函数。