Paper Reading:YOLOv3: An Incremental Improvement

在这里插入图片描述
论文地址:YOLOv3

优势之处

YOLOv3采用全新的网络darknet-53来代替YOLOv2的darknet-19,该网络更大但精度更高,同时仍足够快:在 320 × 320 320\times320 320×320的输入下,YOLOv3在22ms内检测完毕并且具有28.2的mAP,在精度上和SSD一样高但在速度上使他的三倍。当在原来.5 IOU mAP的检测标准上,YOLOv3表现得十分出色,在Titan X显卡上只花费51ms实现 57.9 A P 50 57.9 AP_{50} 57.9AP50的效果,对比RetinaNet花费198ms实现 57.5 A P 50 57.5 AP_{50} 57.5AP50,YOLOv3的运行速度是它的3.8倍。

四点改进

边界框预测

在边界框预测上仍延用YOLO9000的方法:
使用维数聚类和anchor boxes
网络对每个边界框预测4个坐标参数:
t x , t y , t w , t h t_x,t_y,t_w,t_h tx,ty,tw,th
当发生如YOLOv2所述的特殊情况,则仍按下图处理。
在这里插入图片描述
使用logistic回归来预测类目标的分数
在这里插入图片描述

类别预测

仍采用多标签分类方法,同时构造层级分类树进行分类,开绿道使用softmax函数进行分类执行效果不佳,改用logistics回归函数进行分类。在训练期间,采用二值交叉熵损失进行类别预测。

放弃使用softmax函数而采用logistic回归函数的原因:

  1. 使用softmax意味着利用先验的假设每个框内只含有一个目标
  2. 事实是很多数据集中(i.e:Open Images Dataset)很多类别标签是重合的,多标签方法更适合这些数据集。

跨尺度预测

YOLOv3在3个不同尺度上进行预测,最后输出一个3-d张量对边界框、类似目标和类别预测进行编码。在coco数据集上进行实验,本文在每个尺度上预测3个边界框,所以当有4个边界框集合,1个类似目标和80个类别预测时,张量为 N × N × [ 3 ∗ ( 4 + 1 + 80 ) ] N\times N \times[3*(4+1+80)] N×N×[3(4+1+80)]
同时比较关键的改进还有:将网络中更早时候的特征映射和上采样得到的系列特征进行串联,从上采样特征中获得更多有意义的语义信息和从早期feature map中获得更多细粒度信息。

特征提取器

使用新的网络Darknet-53
在这里插入图片描述
在这里插入图片描述

缺陷

YOLOv3有极好的 A P S AP_S APS执行结果,但在中等和更大尺寸的目标上执行效果不理想。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值