目标检测之YOLO V1

目标检测之YOLO V1简单总结

前言

《You Only Look Once:Unified, Real-Time Object Detection》
论文地址:http://arxiv.org/abs/1506.02640
在这里插入图片描述
作为单阶段的目标检测网路,YOLO的速度比fasterrcnn快得多,目前YOLO已经出到V5,精度也大大提升。学习YOLO还是从V1开始看再看后面就更容易,因此,这里对V1简单的总结一下,也为后面的学习做个铺垫,这里就对整个pipeline进行介绍即可。

训练

1)主干特征提取:
在这里插入图片描述

主干网络使用的GoogLeNet,并在此基础上加入了一些新的层,为了提高性能。最后的输出是7x7x30的特征图,分成7x7个cell,每个cell有2个bbox。每一个cell的30维特征分布如下:
在这里插入图片描述

说明:

  1. x,y范围0~1,相对于cell,w,h范围0-1,相对于整图。这样中心点就会在自己的cell内,而框就可以覆盖整张图。
  2. confidence:这里的置信度表示的是有目标的概率Pr(Object)乘与gt_bbox的IoU,这是为了后面有用。举个例子:如果cell不在gt_bbox内,那么IoU=0,confidence=0;如果cell全在gt_bbox内,那么confidence=IoU。
  3. class_probability:代表了该cell可能的类别,这里可知V1的缺点,一个cell的bbox也就只能对应一个类别。

在这里插入图片描述

2)优化损失函数:
在这里插入图片描述
说明:
loss采用的是误差平方和(Sum-squared error),对于花写的1的解释如下:
在这里插入图片描述

  1. 1objij如果检测物体在第i个cel的第j个bbox中,则为1否则为0,1noobjij与之相反。举个例子:假设有3个检测目标,那么会有最接近的3个bbox的1objij=1,另外7x7-3=95个cell1objij=0,但1noobjij=1。(注意到这里正负样本不平衡没,所以会用λnoobj来平衡因此,对于回归和分类损失,只会去计算与gt_bbox有高IoU的bbox。
  2. w和h开根号,是因为wh变换带来的IoU误差比中心点偏移带来的误差会更大,因此开方。

预测

首先会得到每个cell的2个bbox的预测得分(就是将我们前面提到的confidence乘以分类的分数):
在这里插入图片描述
在这里插入图片描述

然后,分别对每个类别的分数进行如下操作,剔除分数小于阈值的,再排序,之后进行NMS,将会得到一组有很多0的分数向量。

在这里插入图片描述

之后对7x7x2个bbox的分数进行判断,打上其最可能(分数最高)那一类的标签,如果全为0,那就打上0。
在这里插入图片描述

在这里插入图片描述

缺点

YOLO对相互靠的很近的物体,还有很小的群体检测效果不好,这是因为一个网格中只预测了两个框,并且只属于一类。对测试图像中,同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。由于损失函数的问题,定位误差是影响检测效果的主要原因。尤其是大小物体的处理上,还有待加强。

下一篇:目标检测之YOLO V2

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值