论文地址:YOLOv3
优势之处
YOLOv3采用全新的网络darknet-53来代替YOLOv2的darknet-19,该网络更大但精度更高,同时仍足够快:在 320 × 320 320\times320 320×320的输入下,YOLOv3在22ms内检测完毕并且具有28.2的mAP,在精度上和SSD一样高但在速度上使他的三倍。当在原来.5 IOU mAP的检测标准上,YOLOv3表现得十分出色,在Titan X显卡上只花费51ms实现 57.9 A P 50 57.9 AP_{50} 57.9AP50的效果,对比RetinaNet花费198ms实现 57.5 A P 50 57.5 AP_{50} 57.5AP50,YOLOv3的运行速度是它的3.8倍。
四点改进
边界框预测
在边界框预测上仍延用YOLO9000的方法:
使用维数聚类和anchor boxes
网络对每个边界框预测4个坐标参数:
t
x
,
t
y
,
t
w
,
t
h
t_x,t_y,t_w,t_h
tx,ty,tw,th。
当发生如YOLOv2所述的特殊情况,则仍按下图处理。
使用logistic回归来预测类目标的分数
类别预测
仍采用多标签分类方法,同时构造层级分类树进行分类,开绿道使用softmax函数进行分类执行效果不佳,改用logistics回归函数进行分类。在训练期间,采用二值交叉熵损失进行类别预测。
放弃使用softmax函数而采用logistic回归函数的原因:
- 使用softmax意味着利用先验的假设每个框内只含有一个目标
- 事实是很多数据集中(i.e:Open Images Dataset)很多类别标签是重合的,多标签方法更适合这些数据集。
跨尺度预测
YOLOv3在3个不同尺度上进行预测,最后输出一个3-d张量对边界框、类似目标和类别预测进行编码。在coco数据集上进行实验,本文在每个尺度上预测3个边界框,所以当有4个边界框集合,1个类似目标和80个类别预测时,张量为
N
×
N
×
[
3
∗
(
4
+
1
+
80
)
]
N\times N \times[3*(4+1+80)]
N×N×[3∗(4+1+80)]。
同时比较关键的改进还有:将网络中更早时候的特征映射和上采样得到的系列特征进行串联,从上采样特征中获得更多有意义的语义信息和从早期feature map中获得更多细粒度信息。
特征提取器
使用新的网络Darknet-53
缺陷
YOLOv3有极好的 A P S AP_S APS执行结果,但在中等和更大尺寸的目标上执行效果不理想。