Object Detection : One-stage Detector YOLO

现有的目标检测器主要分为两种类型:两阶段(two-stage)和单阶段(one-stage)。这两种检测器的设计思想有很大的不同:两阶段检测器主要将检测问题归结为分类问题(classification),而单阶段检测器主要是将检测问题定义为回归问题(regression)。不仅如此,两种检测器在时间、性能上也有一定的差距。接下来我将会沿着单阶段的主线,根据时间顺序,进一步了解单阶段检测器的发展。

YOLO -> DenseBox -> SSD -> YOLO v2 -> Retina -> YOLO v3 -> CornerNet -> CenterNet -> AlignDet

You Only Look Once: Unified, Real-Time Object Detection

论文地址:1506.02640

1. YOLO的优缺点(Pros and Cons)

【从摘要(Abstract)和介绍(Introduction)】
在这里插入图片描述

  • 优点
    • 速度快(fast):采用回归思想,无需产生区域提议(proposals),是一个端到端的模型
    • 利用全局信息(global):输入是整张图片(entire image),而不是图片其中的一部分(part)
    • 泛化能力(generalization):在非自然图片(natual image)如艺术作品领域(artwork),检测结果(results)较好
  • 缺点
    • 准确率不如两阶段检测器(accuracy behind):体现在定位(localization)不够准确,小目标(small object)检测难
    • YOLO在检测框的预测上有较强的空间限制(strong spatial constraints):一个网格单元预测两个检测框,并且一个网格单元内只能有一种类别预测。这导致模型缺乏对相邻的多个目标检测的能力,尤其是一大群小目标(small objects that appear in groups)
    • YOLO对新的或者不寻常(new or unusual)的纵横比、设置(configurations)的泛化能力较弱:因为模型是从数据中学习如何预测检测框,有一定的数据依赖性
    • 损失函数的设计有缺陷:对于大检测框与小检测框的错误一视同仁:对于某些小错误,在小检测框会对IOU有很大的影响,在大检测框上相对影响小一些。

2. YOLO的设计思想(Design)

YOLO 使用全图特征去预测检测框(bounding boxes)及其类别(classes)。与两阶段检测器的区域提议(region proposals)不同的是,YOLO不预先产生可能包含目标(objects)的区域(proposals),而是将一张图片分割成S x S的网格(grid),每个网格单元(cell)都可能包含目标,换句话说,这些网格单元便是YOLO给出的可能包含目标的区域。对于每个网格单元,如果目标的中心(center)落在其中,该网格便负责对该目标进行检测。
在这里插入图片描述
每个网格单元负责预测B个候选框及其对应的B个置信度(confidence scores), 此处置信度指网格单元包含目标及检测框预测准确的置信度(原文链接1),定义为 P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)*IOU_{pred}^{truth} Pr(Object)IOUpredtruth

当预测的检测框(predicted boxes)中包含目标时, P r ( O b j e c t ) = 1 Pr(Object)=1 Pr(Object)=1,即置信度等于预测检测框与真实标注GT(ground truth)之间的IOU(intersection over union);当预测的检测框中不包含目标时,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值