Darknet-53 特征提取
13 x 13 每个网格点3个先验框
26 x 26 每个网格点3个先验框
52 x 52 每个网格点3个先验框
13 13 75 -> 13 13 3 20(类别概率) 1(是否有物体) 4(先验框坐标)
上采样是图像维度的堆叠与Resnet的残差图像融合是不同的。其它操作和上一层的操作一样之后 完成分类和先验框的矫正。
Darknet-53 特征提取
13 x 13 每个网格点3个先验框
26 x 26 每个网格点3个先验框
52 x 52 每个网格点3个先验框
13 13 75 -> 13 13 3 20(类别概率) 1(是否有物体) 4(先验框坐标)
上采样是图像维度的堆叠与Resnet的残差图像融合是不同的。其它操作和上一层的操作一样之后 完成分类和先验框的矫正。