1 yolov5输出张量说明
float[1,25200,85]
1是batch
25200可以理解为 25200=(80∗80+40∗40+20∗20)∗3
输入图像的尺寸是 640x640 像素,那么根据不同尺度的输出(通常 YOLOv5 有三个不同尺度的输出),这些网格的尺寸会按 8、16、32 的步长划分,分别对应 80x80、40x40 和 20x20 的网格。因此,对于每个尺度:
80x80 的网格有 6400 个单元格(80 * 80)
40x40 的网格有 1600 个单元格(40 * 40)
20x20 的网格有 400 个单元格(20 * 20)
YOLOV5是anchor-based,每个grid预测3个BBox
如果模型为每个网格预测 3 个边界框,那么总的单元格数为:
6400(80x80网格)+ 1600(40x40网格)+ 400(20x20网格)= 8400 个单元格
然后乘以每个网格预测的边界框数量 3,得到 25200(8400 * 3)。
<