You Only Look Once: Unified, Real-Time Object Detection（YOLOv1）论文学习笔记

最新推荐文章于 2022-09-23 11:24:15 发布

小风_

最新推荐文章于 2022-09-23 11:24:15 发布

阅读量269

点赞数 1

分类专栏：论文学习总结目标检测

本文链接：https://blog.csdn.net/qq_33952811/article/details/107772371

版权

论文学习总结同时被 2 个专栏收录

26 篇文章 9 订阅

订阅专栏

目标检测

9 篇文章 0 订阅

订阅专栏

摘要：

提出了YOLO，将目标检测归为了回归问题，可以在完整图像中进行预测框和类别概率的计算，YOLO是一个端到端的预测框架
非常快，可以达到45fps，而对于更小的版本，Fast YOLO，可以达到155fps，且依旧保持较高的mAP
相比其他预测框架，YOLO可能会预测较多错误的预测框，但很少会有假阳性的出现
总体上要比其他预测框架要好，比如DPM，R-CNN等

介绍：

为了检测目标，一些检测器在图像的不同位置和尺度上进行检测和分类，DPM(Deformable parts models)则是采用了滑动窗口的思路进行搜索。R-CNN使用候选框方法来生成潜在的bbox，然后分类，NMS后处理。这很复杂，因为每个阶段都要单独训练，而且很慢。
YOLO作为单回归问题，直接从像素到bbox和类别进行预测，你只需要看一次图像就知道哪有啥物体。YOLO的模型如下图所示，首先图像进行resize到448x448，然后进行conv的特征提取并得到bbox和分类，最后进行NMS。

YOLO有几大优势：一是非常快，毕竟是端到端；二是全局推理和预测，相比滑动窗口和基于候选框的方法，有一定的上下文信息推断，因此相比Fast R-CNN，YOLO对背景错误的预测更少。第三是YOLO学习对象的可概括表示。
YOLO的精度要比其他SOTA框架差一些。

YOLO：

YOLO是端到端的实时的检测网络框架，对图像进行全局的特征提取并获得候选框（box）和分类
YOLO网络将图像划分成为SxS的网格，如果物体落入网格中的某个格子，那么这个格子就负责预测这个物体。同时，这个格子将预测B个box以及对应的置信度，这些置信度分数反映了box是否包含物体，以及它认为box预测是物体的准确性，置信度如下图，如果没有物体，那么置信度值为0。IOU表示gt的box与预测的box的交集。
每个box由5个预测组成：x、y、w、h和置信度。 **(x，y)**坐标表示box的中心（相对于网格单元的边界）。w、h是相对于整个图像的，预测的宽高结果值。置信度就是gt的box与预测的box的交集。
同时，每个网格还预测C个类别的条件概率，这些概率取决于包含物体的网格。不管预测的box有多少，在网格中，只预测一个物体分类概率的结果。在测试的时候，我们把类别条件概率和每个框的预测的置信度值相乘，化简得到下面这个公式。公式的结果是每个box的特定类别的概率。这些分数体现了该类出现在框中的概率以及预测框拟合目标的程度。
如图所示，论文将预测SxSx(B*5+C)的tensor值，SxS表示网格数，B表示每个网格有B个预测框，5就是1个置信度和4个坐标值。论文的S设置为7，B设置为2
网络结果如下图，参考GoogLeNet，有24个卷积层和2个全连接层，没有用到inception结构，而是用1x1卷积接3x3卷积，1x1卷积用于降维。 Fast YOLO使用的神经网络具有较少的卷积层（9而不是24）和较少的滤波器在这些层。除了网络的大小，所有的训练和测试参数在YOLO和Fast YOLO都是一样的，最终的输出是7x7x30，对应上述的SxSx（B*5+C）
训练。前20层用的ImageNet的预训练参数，后加入4个卷积网络和2个全连接以便提高精度，随机权重初始化，同时输入设置为448x448x3，增大细粒度。除了最后一层用线性激活函数，其他用的leakyReLU激活函数
损失函数如下图所示，1表示网格对应的bbox中是否有物体；坐标预测是（x,y,w,h），含目标的和不含目标的预测分别下了损失；类别预测的1表示网格中是否有物体。有个问题是，坐标预测与不含object的box置信度预测两者的偏重肯定不能相同，坐标的预测要优先一些，因此设置λcoord和λnoobj分别为5和0.5。注意，只有网格中有物体进行预测；只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而用哪个box就看其预测值和ground truth box的IoU最大的那个。