YOLO(You Only Look Once)的网格划分是其目标检测的核心设计之一,旨在将图像分割为多个区域,每个区域独立预测目标。该机制从YOLOv1的固定划分逐步演进为动态化、多尺度化,最终与注意力机制融合。以下分版本解析其核心原理及技术演进:
一、网格划分机制详解
1. 网格划分基本原理
YOLO将输入图像划分为S×S的等分网格(如7×7或13×13),每个网格独立预测其覆盖区域内的目标。
- 核心逻辑:每个网格仅对中心点位于其内部的目标负责,通过局部特征提取和全局信息整合实现检测。
- 责任分配:遵循单一责任原则(Single Responsibility Principle),若目标的中心点落在某网格内,该网格需预测其位置、尺寸及类别,其他网格即使覆盖目标部分区域也不参与预测。
- 输出结构:每个网格输出B个边界框(Bounding Box)、1个置信度分数(Confidence Score)及C个类别概率,