YOLOv1解析输出张量2025.5.22

mozun2020

已于 2025-05-22 11:22:16 修改

阅读量601

点赞数 16

分类专栏： DL1:深度学习文章标签： YOLO 目标识别目标检测计算机视觉人工智能

于 2025-05-22 11:21:44 首次发布

本文链接：https://blog.csdn.net/sinat_34897952/article/details/148106035

版权

24 篇文章

订阅专栏

在YOLOv1中，最终的输出张量维度为7×7×30，其中每个网格单元预测两个边界框（Bounding Box）和对应的20个类别概率。这种设计导致每个网格单元的类别概率数量为20，而非每个边界框单独分配20个类别（即总40个），其核心原因如下：

每个7×7网格单元的输出包含：

2个边界框：每个边界框预测以下5个参数：
- 中心坐标偏移量（x, y）
- 宽高缩放比例（w, h）
- 置信度（Confidence）：表示该框包含目标的概率，与类别无关。
20个类别概率：表示该网格单元属于PASCAL VOC数据集的20个类别的概率。

因此，每个网格单元的总输出维度为：
[2* 5 + 20 = 30 {（对应30个通道）}]

在这里插入图片描述

类别概率与网格单元绑定
YOLOv1的设计假设每个网格单元最多检测一个物体。因此：
- 20个类别概率是网格级别的预测，而非针对单个边界框。
- 无论预测多少个边界框，同一网格单元内的所有边界框共享同一组类别概率。
置信度的作用
每个边界框的置信度（Confidence）表示：
- 是否包含物体（与类别无关，由IoU和物体存在性决定）。
- 定位质量（预测框与真实框的重叠程度）。

在这里插入图片描述

简化计算与参数数量
若每个边界框独立预测20个类别，每个网格单元需要2×20=40个类别参数，总输出维度将变为：
[2* (5 + 20) = 50 {（而非30）}]
这会导致参数量大幅增加，违背YOLOv1的轻量化设计目标。
基于网格单元的物体检测假设
YOLOv1假设一个网格单元仅对应一个主要物体，通过置信度筛选最可靠的边界框，并共享类别概率。这种设计适用于稀疏物体场景（如PASCAL VOC）。