YOLO

一、背景

YOLO是近几年目标检测领域的一个创新,在以前的帖子中我们说过,目标检测在刚开始的时候,是通过提取图片的特征,比如SIFT、HOG等,这些特征是研究者人工构建的,使用Deformable Parts Model(DPM)模型,用silding window的方式来预测较高得分bounding box。这种框架非常耗时,而且精度不高。然后出现了以SS(selective search)为代表的object proposal方法,相比较sliding window穷举式的方法,在效果和计算速度上有较大的提高。随着R-CNN系列的出现,将在图像分类上表现出优越性能卷的积神经网络用于目标检测领域,奠定了“Proposal + Classification” 的方法在 Objection Detection 上的地位。但是R-CNN框架也有很多弊端,比如整个网络做不到End to End,中间训练过程需要大量的内存来存储一些特征,计算速度不够理想等。YOLO算法提出了一个新的思路,将 Object Detection 的问题转化成一个 Regression 问题,给定输入图像,直接在图像的多个位置上回归出目标的bounding box及其分类类别。

二、框架介绍

作者在文章中多次提到R-CNN系列模型做不到端到端的训练,因此每一个独立部分单独训练、保存和优化是很耗内存并且影响计算速度,YOLO则是一个单一的网络结构(卷积层+全连接层)达到目标检测的目的,其检测模型如下图Fig.1 。

Fig.1 YOLO检测系统

如上图所示,对目标检测的过程分为三个步骤: 
1、将输入图像resize到一定大小(论文中resize到448 * 448)输入卷积神经网络;
2、通过24层卷积网络和两层的全连接网络,得到一些带参数的bounding box和class probabilities ;
3、通过非极大值抑制,筛选box。

三、主要内容分析

3.1 理解grid cell

YOLO将resize后的图片划分为S*S个网格(grid cell),如果一个物体的中心落在某个网格内,则这个网格负责检测该物体。通过网络,每个网格会预测产生B个bounding box和其confidence score(置信度),以及C个类别概率。这些信心得分反映了模型对盒子包含一个物体的信心程度,以及它对盒子预测的准确性。

作者将置信度定义为:

                                                                                                Pr\left ( Object \right )\ast IOU_{pred}^{truh} 

从定义可以看出置信度包含两个方面:

1、Pr(Object)表示当前bounding box中含有Object的置信度;

2、IOU(pred|truth)表示当前bounding box预测目标位置的准确性。如果bouding box内不存在物体,则Pr(Object)=0,如果包含物体,则根据预测的bounding box和真实的bounding box计算IOU。

YOLO对每一个网格预测产生的B个bounding boxes&

  • 15
    点赞
  • 124
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值