YOLOv3相比YOLOv2,主要有以下几个方面的改变:使用Darknet-53作为基础网络(提取图像特征);对象分类用逻辑回归取代softmax;借鉴FPN,利用多尺度特征图进行目标检测。
1.网络结构
YOLOv3采用了Darknet-53作为基础网络,有53个卷积层。它借鉴了ResNet中的残差块的设计,在某些层之间添加“跳层连接”(shortcut connection)。更详细的网络结构剖析可以看这篇大牛!
2.用逻辑回归取代softmax
YOLOv3在分类时没有用softmax分类器,而是用独立的logistic分类器。softmax只能处理相互独立的类别,也就是bounding box如果属于一种类别,那么它就不可能属于第二种类别。但是对于Open Image这种数据集,有许多重叠的类别标记,比如“女人”和“人”。因此用softmax处理就不太合适了。用logistic分类器来预测每个类别得分,并设置一个阈值,选取大于阈值的类别作为bounding box的真实类别。
3.用多尺度特征图进行检测
这部分参考大牛