(YOLO v1)You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记

(YOLO)You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记2016

Abstract

我们提出了一种新的目标检测方法:YOLO。之前目标检测上的一些工作使用分类器来进行检测,而我们把目标检测任务当作一个对空间上分开的bbox和其对应的class概率的回归问题。只使用一个神经网络来直接一次对整张图像预测bbox和它的class概率。

我们的方法特别快,基础的YOLO模型可以实时处理图像达到45帧每秒。更轻小的模型,Fast YOLO,可以达到155 fps,同时还可以取得其他实时方法的两倍的mAP。与其他的SOTA检测方法相比,YOLO虽然有更多的定位误差,但是对于背景有更少的假阳性,并且可以学习到目标的非常general的特征表示。且当进行迁移学习(从自然图像转换到其他domain)时,效果较好。

1. Introduction

人类只需要看一下图像就可以立即直到图像中有什么目标以及位置。目前的检测系统使用分类器来进行检测。为了检测到目标,系统使用分类器对图像多个位置和尺度进行检测分类。R-CNN使用区域proposal方法生成bbox然后使用分类器对这些bbox进行分类,后续处理对bbox进行回归,消除重复的检测结果,最后输出结果。这个过程很复杂,优化起来比较难。

我们把目标检测当作一个回归问题,直接从图像像素出发来得到bbox坐标以及class probabilities。我们的方法,只需要看一次图像,因此叫做YOLO。

YOLO十分简单,如图1所示。一个卷积网络同时预测多个bbox以及它们的class概率。YOLO在整张图像上进行训练,直接优化检测表现,相比传统方法有以下几个优点。

  • 首先,YOLO非常快,因为我们没有使用复杂的pipeline。基础的YOLO模型可以实时处理图像达到45帧每秒。更轻小的模型,Fast YOLO,可以达到155 fps,同时还可以取得其他实时方法的两倍的mAP。
  • 其次,在预测时候,YOLO是全局地对图像进行预测的。与其他滑窗或region-baesd的方法,YOLO可以“看到”整张图像,所以包含了contextual information。Fast R-CNN因为无法看到更大的context,会把背景块当作目标,YOLO减少了近一半这种假阳性。
  • 第三,**YOLO学到目标的更generalizable(更概括)的表示。**当迁移学习到其他domain时,效果更好。

YOLO在准确率上落后与SOTA,对小目标效果较差,然而它可以快速找到图像中的目标。

2. Unified Detection

我们把目标检测的几个分离部分整合到了一起,我们的网络使用来自整张图像的特征预测每个bbox,同时也预测所有class的bbox。这意味着我们的网络是对整张图像全局预测的,考虑到了图像中的所有目标。

我们网络将输入图像分成S * S个网格,如果目标的中心落在某个网格中,这个网格就负责检测这个目标。

每个网格cell预测B个bbox以及这些bbox的置信度。置信度反映了模型对这个box含有目标的信心以及它认为它预测的这个box有多准确。

我们将置信度定义为:
P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)*IOU^{truth}_{pred} P

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值