YOLOv1论文学习笔记

mikko_6214

已于 2024-07-09 10:46:47 修改

阅读量591

点赞数 9

分类专栏：深度学习笔记文章标签： YOLO 学习笔记

于 2024-07-06 15:04:33 首次发布

本文链接：https://blog.csdn.net/2302_79365810/article/details/140215608

版权

深度学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、概述

1.定义

之前的目标检测通常为分类问题，而YOLO将目标检测重新定义为回归问题。
过去的目标检测通常是一个两阶段问题：
第一阶段：候选区域生成和特征提取。
第二阶段：分类与回归及后处理。
这种方法通常需要分步骤地处理每个目标候选区域，因此在速度和精度上存在一定的折衷。但是YOLO可以实现端到端的检测。因为YOLO使用一个单独的神经网络，既可以预测预测框的坐标，也可以预测类别，它直接全图输入，然后神经网络在一次前向推断后就能够输出目标的坐标和类别。

2.优点

相对之前的目标检测YOLO的优点有：

1.检测速度非常快可以实现实时目标检测的需求：传统的目标检测方法（如基于滑动窗口的方法）需要在每个窗口上运行分类器，这在处理大量窗口时效率低下。将目标检测任务视为回归问题可以减少多次区域分类的需求（这是因为回归问题是预测出一系列连续的数值，在目标检测中，预测目标的边界框的坐标（如中心点的坐标、宽度和高度）就是一个回归问题，因为这些值是连续的实数。），从而显著提高处理速度。

2.对图像进行全局的推理：这个优点同时也使得YOLO在把背景误判为物体这个误差比较小。因为YOLO是直接进行全图输入，而不是提取某一个区域的候选框，所以它能够隐式的学习全图的信息，也就是对图像进行全局的推理，所以把背景误判为物体的错误比较小。

3.迁移泛化能力强：YOLOv1其统一的检测框架将目标检测视为单一回归问题、端到端训练优化定位和分类、利用单一网络架构获取全局上下文信息以及实时推理效率等特点而显著提升了其在不同数据集和环境中的健壮性和适应性，因此在迁移和泛化能力方面表现出色。

二、网络结构

1.简述

首先将输入图像划分为 S×S 个网格，每个格子称为grid cell，如果检测物体的中心（在训练阶段这个中心是人工标注的检测框的中心）位于该grid cell内，则该网格负责该物体的检测。
每个grid cell会预测 B 个bounding boxes（边界框以下简称b box）和对应b box的confidence score（置信度）confidence score =
前者为判断b box中是否存在人工标注框的中心点，存在则为1，反之为0；后者为该b box与人工标注框的交并比。
每个b box包括5个参数：x，y，w，h，Confidence，其中x，y表示人工标注框中心点和grid cell左上角格点坐标坐标之差，w，h是相较于整张图像的宽度和高度，即b box的宽和高与原图宽和高的比（值为0~1）；
每个grid cell对 C个类别进行预测，输出C个类别的条件概率（该grid cell对应的B 个b box会共享这一组条件概率）意为在当前grid cell负责预测物体的条件下各类别的概率。

测试阶段，我们将条件概率和单个框置信度相乘，这提供了每个框的特定类别的置信度分数。这些分数代表某个类别的分类精度以及预测框的定位精度。
在测试阶段，经过以上的计算我们可以直接得出每个b box的S×S ×(B*5 + C)张量。论文中使用的是PASCAL VOC数据集，PASCAL VOC有20个标签类，所以C = 20。最终预测是一个7×7 ×30的张量，然后经过NMS后处理得到目标检测结果。
而在训练阶段，人工标注框中心点所在grid cell负责预测这个物体，每个grid cell产生的B个b box中与人工标注框IOU最大的负责预测这个物体。由此这些b box可以分为三类：

2.网络设计

YOLO的网络架构有24个卷积层，其次是2个全连接层。

1x1卷积层的作用通常有：降维和增加非线性参数减少特征融合和特征选择网络设计中的连接器3x3卷积层的作用通常有：特征提取感受野的扩展增加网络的深度和非线性隐式正则化灵活性
在这里1x1卷积层的主要作用是降维和减少参数；

3.损失函数

YOLO是回归问题的目标检测，所以使用的是平方和误差

②式中是宽度和高度的平方根的平方差误差，这是因为，产生同样大小的误差时小框产生的误差要比大框要严重得多，计算它们的平方根可以让大框和小框更加公平。

4.细节

4.1 NMS（非极大值抑制）

得分排序：首先，根据检测框的预测得分对所有检测框按照得分降序排序，
选择最高分框：从排好序的框中选择得分最高的框，并将其添加到最终输出的框列表中。
计算重叠度：对于剩余的框，计算它们与已选择的框的重叠度（根据二者的IOU）。
移除高重叠框：移除与已选择框有高重叠度（定义一个阈值，比如0.5）的框，这样可以确保最终输出的框之间互不重叠或者重叠较小。
重复步骤：重复上述步骤，直到所有框都被处理。

mikko_6214

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
YOLOv1论文学习笔记

之前的目标检测通常为分类问题，而YOLO将目标检测重新定义为回归问题。过去的目标检测通常是一个两阶段问题：第一阶段：候选区域生成和特征提取。第二阶段：分类与回归及后处理。这种方法通常需要分步骤地处理每个目标候选区域，因此在速度和精度上存在一定的折衷。但是YOLO可以实现端到端的检测。因为YOLO使用一个单独的神经网络，既可以预测预测框的坐标，也可以预测类别，它直接全图输入，神经网络在一次前向推断后就能够输出目标的坐标和类别。
复制链接

扫一扫