目标检测入门之再读YOLOv1

最新推荐文章于 2024-01-31 13:06:39 发布

赵卓不凡

最新推荐文章于 2024-01-31 13:06:39 发布

阅读量700

点赞数

分类专栏：深度学习文章标签：计算机视觉深度学习目标检测

本文链接：https://blog.csdn.net/sgzqc/article/details/121564213

版权

59 篇文章 26 订阅

订阅专栏

1 引言

YOLO系列为目标检测经典算法，yolo v1(以下都称为yolo)算比较旧的方法了，不过近来想整理一下yolo系列算法，所以先从yolo v1开始整理。

闲话少说，我们直接开始。：）

论文题目: You Only Look Once: Unified, Real-Time Object Detection
论文链接: 戳我

YOLOv1的模型架构参考GoogleNet,一共有24个卷积层,2个全连接层,激活函数为Leaky ReLU,最后一次则是采用Linear activation.整体网络架构图如下所示:

在这里插入图片描述

YOLO 的整体处理流程如下:

YOLOV1前向预测方法如下:

首先将输入的图像切分成7X7的网格(grid cell),每个网格负责预测2个bounding box以及输出预测每个类别的概率.论文中采用的数据集为PASCAL VOC,该数据集一共有20个类别.
每隔bounding box的输出有5个预测值:x,y,w,h以及confidence,分别表示为预测的物体的中心点(x,y),长宽(w,h)以及置信度(confidence)
注意上述中x,y,w,h值为bounding box中心点的x坐标,y坐标,bounding box的宽度高度,并且均为归一化后的结果
注意上述confidence为boundingbox与Ground Truth的IOU值,可以由该值来判断这个boundingbox框出的是物体还是背景

下面来解释每个网格(grid cell)的输出:

在这里插入图片描述

每个grid cell输出: 2X5+20
2个(B=2)bounding box坐标和confidence以及该cell的预测类别
网格grid cell的尺寸为 7x7,所以总输出: 7X7X(2X5+20)=7X7X30

YOLOv1还有一个重要的概念:

如下图所示,预测到猫咪的bounding box中心点位于粉红框的网格内,则该网格会负责预测这只猫咪.

在这里插入图片描述
由上图可知,一个图像会预测出7X7X2=98个bounding box,这些预测框有的可能被认为是背景(没有框出任何物体),此时confidence会为0,在进行NMS时,该框会被删除;

若该框有框出物体,那么它预测出的x,y的值可能被认为是该物体的中心点,这里说可能是因为该预测物体框不一定就是实际答案.

对于同一物体,由于预测到的物体框可能有多个,最后需要经过NMS来消除那些重叠,置信度较低的框,剩下的框就是选出来的物体框.

下图所示为模型预测的过程:划分grid cell, 预测bounding box以及class,对bounding box 进行NMS,筛选后的bounding box与class结合后输出结果.

在这里插入图片描述
上述用来挑选最佳的目标检测预测框的算法为NMS,该算法的流程如下:

设定一个IOU阈值(threshold)
将所有预测框根据confidence进行排序
选择confidence最高的预测框作为最终输出预测框,并计算与其他预测框的IOU,若IOU大于阈值,代表两个框框住了同一个物体,则将confidence较小的框设为0, 即删除此预测框;若是小于阈值,则代表两者框住的是不同的物体框,需要留下该预测框.
重复上述步骤,直到遍历完所有预测框

NMS算法已经在前一篇文章中进行了详细的说明,感兴趣的同学可以直接戳我.

在介绍损失函数之前,我们先来引入以下参数

1).bounding box中心点坐标xy与宽高

$b_{xi},b_{yi})$ 为gt框的中心点坐标, $(\hat{b}_{xi}, \hat{b}_{yi})$ 为预测框的中心点坐标
$1_{ij}^{obj}$ 为第i个网格中第j个bounding box是否有匹配到gt中的标记框.若有匹配,表示该gt标记框与该预测框有最大IOU,此时该bounding box负责检测该物体,此时 $1_{ij}^{obj}=1$
$b_{wi},b_{hi})$ 为gt框的宽和高, $(\hat{b}_{wi}, \hat{b}_{hi})$ 为预测框的宽和高
$\lambda_{coord}=5$ 使模型着重于物体定位能力