【YOLO详解】You Only Look Once（一）：YOLO 原论文笔记

最新推荐文章于 2023-11-24 14:20:30 发布

HicSuntLeones

最新推荐文章于 2023-11-24 14:20:30 发布

阅读量2.4k

点赞数 1

分类专栏： CV：看一次看一次再看一次文章标签：目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/m0_46522688/article/details/122830770

版权

You Only Look Once:
Unified, Real-Time Object Detection ; Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi; University of Washington, Allen Institute for AI, Facebook AI Research

原文：https://arxiv.org/pdf/1506.02640.pdf

我：和 YOLO 小打小闹半年了
也是我：这是什么 → 看博客看源码 → 这是什么 → 看博客看源码 → 这是什么 → 看博客看源码 → 这是什么

是骡子也不能在这递归YOLO (∞) … 所以说脑子不好使就得记下来 …

文章目录

1. Background

YOLO 本身是目标检测算法，简单来说就是分成两个部分，先找到图像中的物体的位置 → 再进行图像分类确认它是什么

在 YOLO 之前也有几个常用的方法：

deformable parts models (DPM)
- 利用滑动窗口的思路，可以直观地理解为通过一个窗口在图片上滑动来一步一步爬着检测（虽然更多关于 DPM 的重点在优化 / 启发式算法 etc 上，这里就不过多涉及了）
- 直观，但缺陷也十分明显（注意到物体在图中的位置和大小本身都是不确定的）：此时移动的步长，起始位置，框的大小等都有很多的可能，不注意就是巨大的计算量（所以一般会配合启发式算法）

R-CNN 类
- 总体思路：
  - 先生成多个候选区域（这里主要是通过相邻区域合并的方式生成的，也就是说此时生成的区域的大小并不是一定的，而后续的模型需要固定大小的输入，故这里再通过一个 CNN 来提取特征转化为固定大小的输入）
  - 扔进 SVM 里做分类（注意这里如果是 N 分类也就存在 N 个 SVM 的分类器）
  - 经过 NMS（非最大抑制，这个机制在 YOLO 里也有，后续介绍，简单来说就是将重合度比较大的框来进行合并）
  - rescore：通过 box regressor 进行修正
- 缺点：慢！超慢！本身 SVM 分类的速度就很慢了，本身候选区域较多的时候带来的大量的特征数据还会很占存储，并且本身的优化是比较难做的（这里分为多个模块进行，比如生成候选区域是一个部分，后续的分类又是另外一个部分

而 YOLO 的思路很简单：将目标检测问题转化为一个回归问题进行求解，也就是说将图像作为输入（像素数据），直接输出物体的位置和所属于的类别的置信度（是以一个向量的形式表示的，后续会介绍），属于端到端的模型形式。

这种特点的模型存在几个优势：

很快，YOLO 的训练和最后 inference 的速度较前面的几个思路都是快很多的
不同于一般的滑动窗口的方式或事先筛选出候选区域的方式，YOLO 在处理图片的时候是直接输入整张图，也就是说较于上面的两种方式会有更多的上下文信息。也就是说 YOLO 在类似于 background error（也就是错误地将背景上的某一个东西当作目标切下来了）的问题上会表现更好
更容易学习到物体的泛化表示（也就是在这张图片上训练认识了狗，能够以更好的泛化性能同时认出来别的图片里的不太一样的狗）也就是说作为模型的泛化性能加强了

2. Model Structure

YOLO 是通过一个统一的神经网络来直接处理一张图片的，也就是说即使这个图片中存在多个目标，每一个目标还都是多分类问题，都是统一处理的；因此 YOLO 才能有比较好的速度；

2.1 overview 主要思路

将整个图片分为 S*S 的小区域，这里的 S 自己指定；注意到每一个目标 → 假设都存在一个 true answer 也就是针对这个目标的最好的检测框 → 则每一个目标的检测框的中心点一定是落在某一个小区域内的；如果此时的中心点落在 x 框内，则 x 小区域就负责搞定这个目标；注意此时可能多个目标落在同一个区域
每一个小区域设定 B 个可能的候选框，并计算每一个可能的候选框的得分 = 置信度，是一个（该候选框和真实的目标检测框的重合程度）和（这个框里确实框住了某一个物体）的综合度量指标，计算方式如下：
$confidence = Pr(Object) * IOU_{pred}^{truth}$
- 这里的 IOU 也就是： $\frac{truth 的检测框 \cap pred 的检测框}{truth 的检测框 \cup pred 的检测框}$

最低0.47元/天解锁文章

HicSuntLeones

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【YOLO详解】You Only Look Once（一）：YOLO 原论文笔记

You Only Look Once:Unified, Real-Time Object Detection ; Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi; University of Washington, Allen Institute for AI, Facebook AI Research原文：https://arxiv.org/pdf/1506.02640.pdf我：和 YOLO 小打小闹半年了也是我：这是什.
复制链接

扫一扫