输出
- 输出最终的三个特征图为8x8x3x85、16x16x3x85、32x32x3x85
- 其中8x8是特征图维度大小(上面三个不同的值代表不同的尺度);3是代表3种先验框;85包括:检测框位置(4维)、检测置信度(1维)、类别(80维)
先验框
- 使用 k-means 对训练集的标签框进行聚类,得到类别中心点的坐标作为先验框
- 有了先验框和输出特征图,就可以得到下图中调整后框的位置
类别置信度
- 置信度可以直接通过sigmoid函数解码,将其划分到0、1之间,
※ 在推理时,不需要那么多先验框,因此置信度低于阈值的框会直接被过滤掉,只有置信度高于阈值的框会进入到NMS,来确定置信度最高的框 - 类别方面是对80个类别,每个进行sigmoid函数解码(传统的使用softmax函数,各个类别是互斥的,但是这里使用sigmoid,一张图就可以有多个类别)