YOLOv1 unified the object detection steps by detecting all the bounding boxes simultaneously.
which grid cell is responsible for predicting an object?
物体中心所落在的网格负责预测物体
输出为S*S*(5*B+C)tensor [7*7*30]
5对应着5个预测值,C表示共有多少个标签类别
找到负责框出物体的网格,再根据找到的网格去训练最适合的Bounding Box
其余的网格置信度为0
confidence是针对每一个Bounding Box,而类别概率则针对的是每一个网格。
也就是说每一个网格会生成类别标签,只有网格包含物体中心的对应的Bounding Box才会生成confidence