前言
前面学习了YOLO v1和v2,今天终于可以看完了YOLO v3论文,作者的第三篇YOLO论文可以说是写的非常随意,一些表达看得英语水平不是很高的我也是一脸懵逼。本来看完论文对YOLO v3的结构不是很清晰,作者也没有在文章中清楚地给出,不过后来看了一个博客的结构示意图(博主使用的网络可视化工具是:Netron),再结合先前看的基于pytorch实现的YOLOv3,对它的结构清晰了许多。
YOLO v3论文地址:https://arxiv.org/abs/1804.02767
YOLO v3
作者在YOLO v3上使用了比YOLO v2更深的网络结构作为特征提取,作者称他为:Darknet-53,虽然它比v2的Darknet-19层数更深、参数更多,所以它的检测速度没有v2那么快,但是据实验结果发现,它的检测速度还是能够达到real time 的要求的,而且检测精度比v2有了一定的提升。
相比v2,v3不仅对特征提取网络进一步的加深,而且通过上采样的操作,在网络中输出不同大小的特征图,这思想有点像特征金字塔,从而实现多尺度特征的提取。
Bounding Box Prediction
v3和v2一样,先使用聚类得到9个不同的先验anchor boxes,不过v