CVPR论文笔记-目标检测篇-YOLOv1&YOLOv2&YOLOv3

最新推荐文章于 2023-04-09 22:00:15 发布

MOTMlsc

最新推荐文章于 2023-04-09 22:00:15 发布

阅读量954

点赞数

分类专栏：行人重识别论文笔记文章标签：计算机视觉神经网络模式识别

本文链接：https://blog.csdn.net/MOTMlsc/article/details/107053065

版权

YOLOv1

1506.02640：You Only Look Once: Unified, Real-Time Object Detection
原文链接： https://arxiv.org/abs/1506.02640
摘要：
YOLO模型仅对完成图片进行一次评估，就可以预测物体的边框和类别的概率。模型的处理速度快，基础YOLO模型在1秒内处理45帧，FASTYOLO模型1秒内可以处理155帧，并且和其他最新成果相比具有两倍的准确率。但是YOLO模型的边框定位错误较高，但是对于背景的错误预测率很低。

文章贡献：
（1）YOLO模型的速度非常快，网络中只有一条简单的流水线，可以用于实时检测。
（2）YOLO模型通过处理整张图片进行预测，对于背景的识别很精确。
（3）YOLO模型高度概括了物体的特征。

模型设计：
首先将输入图片切割成S*S的网格，对于每个网格用来预测物体的锚框和confidence score。Confidence的定义是Pr(Classi|Object) *Pr(Object)*IOU，Pr(Classi|Object) 是物体属于第i类的概率，Pr(Object)的取值由物体是否在框中决定，IOU是锚框和ground truth的交并比。
a. 网络设计
由GoogLeNet启发，网络由24个卷积层和2个全连接层组成。FAST YOLO则是将卷积层的数量减少至9个。
在这里插入图片描述
b. 训练
作者采用的激活函数是leaky RELU，当x<0时，y=0.1x。

在训练中，如果图片中的某一网格的不包含任何物体，这使得这些格子的置信度分数趋于0,经常会overpowering那些包含目标的格子的梯度，会导致模型不稳定。解决这个问题的方法是增加来自边界框坐标预测的损失值，然后降低不包含目标的边界框的损失值。设置的权重分别为5和0.5。
损失函数：