以下内容纯属个人理解,请路过的小伙伴留下宝贵意见,欢迎纠正和补充,谢谢
yolov3的总体思想归纳:
首先,将输入图片压缩到416×416,通过特征提取网络(Darknet53 without FC layer)对输入图像提取特征得到大小一定的特征图,比如13×13,然后将输入图像分成13×13个网格(grid cells),接着如果GT中某个目标的中心坐标落在哪个grid cell中,那么就由该grid cell来预测该目标。每个grid cell都会预测3个边界框。预测得到的输出特征图共有三个维度,第三个维度是深度。
Yolov3输出了三个不同尺度的特征图。采用多尺度对不同大小的目标进行检测,越精细的grid cell就可以检测出越精细的物体。三个尺度的深度都是255(3×(5+80))。
根据图来说明过程: