YOLOv1论文解读

最新推荐文章于 2024-09-27 09:39:18 发布

hi-ha-hi

最新推荐文章于 2024-09-27 09:39:18 发布

阅读量582

点赞数

分类专栏：论文解读文章标签：计算机视觉深度学习目标检测

本文链接：https://blog.csdn.net/qq_40420192/article/details/125940642

版权

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述

问题动机与贡献

当前存在的物体检测系统通常都是重用分类器实现检测，为了检测一个物体，这些方法通常是在测试图片的不同位置，不同尺度进行滑动分类评估。最近的比如R-CNN模型会生成一些潜在的bounding box, 然后使用分类器去判断这些可能的bounding box。这些方法都是很慢的，而且很难优化，因为每个单独的component都必须单独的训
针对上述问题，本文把物体检测看做是一个单回归任务，直接回归像素级的bounding box坐标和对应的类概率，可以预测物体在哪儿，物体是什么
YOLO的模型很简单，相比传统的检测，主要优点体现在下面几点
- 第一，因为YOLO没有复杂的pipeline，仅仅是一个回归问题，所以非常快
- 第二，YOLO检测是时候是全局推理，不像滑动窗口和区域建议技术(region proposal)
- 第三，YOLO学习的是物体的泛化表示

模型首先会把输入图像划分为S*S的网格，如果一个物体的中心在某个网格中，那么对应的网格就负责该物体的检测。
每个网格(cell)都会预测B个bounding box和对应的置信分数，定义为 $Pr(Object)*IOU_{pred}^{truth}$ ，如果没有物体，那么置信分数 $P r$ 应该是0，否则的话，希望置信分数等于预测的box与真实box的交并比。
每个bounding box会包含5个变量，分别为x,y,w,h和置信分数，(x,y)表示box相对每个cell的边缘的中心坐标，以及相对整幅图像的宽和高。最终的置信分数表示的是预测的box和真实的box的交并比。
每个cell也预测C个类条件概率 $Pr(Class_i|Object)$ ，这些概率是基于cell包含的物体的。 $\operatorname{Pr}\left(\text { Class }_{i} \mid \text { Object }\right) * \operatorname{Pr}(\text { Object }) * \mathrm{IOU}_{\text {pred }}^{\text {truth }}=\operatorname{Pr}\left(\text { Class }_{i}\right) * \mathrm{IOU}_{\text {pred }}^{\text {truth }}$
本文设置 $S = 7, B = 2$ ,在 PASCAL VOC数据集上，一共有20类，所以最终预测的tensor形状为7*7*30, 计算公式为 $S * S * (B * 5 + C)$