(三)Real-time Object Detection with YOLO, YOLOv2 and now YOLOv3(YOLOv3)

YOLOv3
视频

YOLO网站上的对于YOLOv3的引述:

在Pascal Titan X上,它以30 FPS的速度处理图像,并且在COCO测试开发中的mAP为57.9%。

类预测
大多数分类器假定输出标签是互斥的。如果输出是互斥的对象类,则为true。因此,YOLO应用softmax函数将分数转换为总计为1的概率。YOLOv3使用多标签分类。例如,输出标签可以是非排他性的“行人”和“孩子”。
(现在输出的总和可以大于1。)YOLOv3用独立的逻辑分类器替换了softmax函数,以计算输入属于特定标签的可能性。YOLOv3在计算分类损失时不使用均方误差,而是对每个标签使用二进制交叉熵损失。通过避免softmax函数,这也降低了计算复杂度。

边界框预测和成本函数计算
YOLOv3使用逻辑回归预测每个边界框的客观性得分。YOLOv3改变了计算成本函数的方式。如果边界框先验(锚点)与地面真实物体的重叠程度大于其他事实,则对应的客观性得分应为1。对于重叠度大于预定义阈值(默认值为0.5)的其他先验,它们不会产生任何成本。每个地面真理对象仅与一个边界框相关联。如果没有分配先验边界框,则不会导致分类和定位丢失,而只会降低客观性的置信度。我们使用tx和ty(而不是bx和by)来计算损失。

在这里插入图片描述
功能金字塔网络(FPN),例如功能金字塔
YOLOv3每个位置进行3个预测。每个预测由一个边界框,一个客观性和80个类别分数组成,
即N×N×[3×(4 + 1 + 80)]个预测。

YOLOv3以3种不同的尺度进行预测(类似于FPN):
1、在最后一个要素地图图层中。
2、然后,它返回2层并向上进行2倍向上采样。YOLOv3然后获取分辨率更高的特征图,并使用逐元素加法将其与向上采样的特征图合并。YOLOv3在合并的地图上应用卷积滤波器以进行第二组预测。
3、再次重复2,这样得到的要素地图图层将具有良好的高级结构(语义)信息以及有关对象位置的良好分辨率的空间信息。

为了确定先验,YOLOv3应用k均值聚类。然后,它预先选择9个群集。对于COCO,锚的宽度和高度为(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116× 90),(156×198),(373×326)。
这9个先验根据其规模分为3个不同的组。在检测对象时,将每个组分配给上面的特定特征图。

特征提取器
使用新的53层Darknet-53代替Darknet-19作为特征提取器。Darknet-53主要由3×3和1×1滤波器组成,这些滤波器具有跳过连接,例如ResNet中的残留网络。与ResNet-152相比,Darknet-53具有更少的BFLOP(十亿浮点运算),但以2倍的速度实现了相同的分类精度。
在这里插入图片描述
YOLOv3性能

YOLOv3的COCO AP指标与SSD相当,但速度提高了3倍。但是YOLOv3的AP仍然落后于RetinaNet。特别是,AP @ IoU = .75与RetinaNet相比明显下降,这表明YOLOv3具有更高的定位误差。YOLOv3在检测小物体方面也显示出显着改进。
在这里插入图片描述
当速度很重要时,YOLOv3在快速检测器类别中的表现非常好。

在这里插入图片描述
原文:https://medium.com/@jonathan_hui/real-time-object-detection-with-yolo-yolov2-28b1b93e2088

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值