「目标检测从0到1」——（二）YOLO- V1

最新推荐文章于 2024-10-10 00:03:54 发布

千禧霓虹

最新推荐文章于 2024-10-10 00:03:54 发布

阅读量1.2k

点赞数 23

分类专栏：目标检测从0到1 文章标签：目标检测 YOLO 人工智能

本文链接：https://blog.csdn.net/qq_46093326/article/details/135757131

版权

目标检测从0到1 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

经典的one—stage方法
把检测问题转化成回归问题，一个CNN即可搞定
可以对视频进行实时检测

在这里插入图片描述

核心思想：

将图片划分成 $S * S$ 个网格（ $g r i d ce ll$ ）， $o bj ec t$ 的中心点落在哪个网格即由哪个网格负责预测该 $o bj ec t$ ，每个网格要预测 $B$ 个 $B o u n d in g B o x es$ 和 $C$ 个类别的概率，其中每个 $B o u n d in g B o x$ 包含预测的位置信息和一个 $co n f i d e n ce$ 。
每个 $B o u n d in g b o x$ 有 $5$ 个预测值： $x ， y ， w ， h ， co n f i d e n ce$ 。 $（ x ， y ）$ 坐标表示长方体相对于网格单元边界的中心， $w ， h$ 分别是宽度和高度。
$co n f i d e n ce$ 反映了所预测的 $b o x$ 中含有 $o bj ec t$ 的置信度和这个 $b o x$ 预测的精确度。如果该单元网格中不存在对象，则第一项（置信度）为0，否则取1。第二项是预测的 $b o x$ 和实际的 $g ro u n d t r u t h$ 之间的 $I o U$ 值。 $co n f i d e n ce$ 就是这两项的乘积。
$confidence=Pr(Object)*IOU^{truth}_{pred}$
每个网格单元还要预测C个类别信息。因此，一个S×S网格，每个网格单元需要预测B个bounding box和C个类别信息。输出为S×S×（5×B+C）的一个tensor
将整个图片作为网格的输入，直接在输出层对 $B o u n d in g B o x$ 的位置和类别进行回归

实现方法：

（1）将输入图像划分为 $7 * 7$ 的网格
（2）对于每个网格，我们都预测 $2$ 个边框（包括每个边框是目标的置信度、每个边框区域在多个类别上的概率）
（3）根据第上一步可以预测出 $7 * 7 * 2$ 个目标窗口，然后根据通过设置置信度阈值去除目标存在可能性较低的框，最后NMS(非极大值抑制)去除冗余框即可