论文【YOLOv3: An Incremental Improvement】
YOLOv3于2018年推出,相较于YOLOv2最大的改进就是网络结构上采用了作者设计的基础框架Darknet-53,如下所示:
网络摒弃了pooling,全部使用步长为2的卷积进行下采样。作者使用三个不同尺度的特征图(分别在8倍降采样、16倍降采样、32倍降采样处)进行目标检测。
YOLOv3使用COCO数据集,有80类,YOLOv3中每个cell有3个box,每个box还有(x, y, w, h, confidence)5个基本参数,所以每个cell输出是3x(5+80)。三个不同尺度的输出分别为13x13x255,26x26x255,52x52x255。最终YOLOv3输出的bounding boxes有3x(13x13+26x26+52x52)=10467个。
改进方面YOLOv3沿用了先验框的方法,为每种下采样尺度设定了3中先验框,总共聚类9种尺寸的先验框。
YOLOv3对类别预测的代价函数进行了修改。分类上使用逻辑回归对每个类别做二分类,逻辑回归层主要是用sigmoid函数,如果大于0.5则属于该类。代价函数使用sigmoid的交叉熵。
结果: