You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记

摘要:

  • 提出了YOLO,将目标检测归为了回归问题,可以在完整图像中进行预测框和类别概率的计算,YOLO是一个端到端的预测框架
  • 非常快,可以达到45fps,而对于更小的版本,Fast YOLO,可以达到155fps,且依旧保持较高的mAP
  • 相比其他预测框架,YOLO可能会预测较多错误的预测框,但很少会有假阳性的出现
  • 总体上要比其他预测框架要好,比如DPM,R-CNN等

介绍:

  • 为了检测目标,一些检测器在图像的不同位置和尺度上进行检测和分类,DPM(Deformable parts models)则是采用了滑动窗口的思路进行搜索。R-CNN使用候选框方法来生成潜在的bbox,然后分类,NMS后处理。这很复杂,因为每个阶段都要单独训练,而且很慢。
  • YOLO作为单回归问题,直接从像素到bbox和类别进行预测,你只需要看一次图像就知道哪有啥物体。YOLO的模型如下图所示,首先图像进行resize到448x448,然后进行conv的特征提取并得到bbox和分类,最后进行NMS。
    在这里插入图片描述
    YOLO有几大优势:一是非常快,毕竟是端到端;二是全局推理和预测,相比滑动窗口和基于候选框的方法,有一定的上下文信息推断,因此相比Fast R-CNN,YOLO对背景错误的预测更少。 第三是YOLO学习对象的可概括表示。
  • YOLO的精度要比其他SOTA框架差一些。

YOLO:

  • YOLO是端到端的实时的检测网络框架,对图像进行全局的特征提取并获得候选框(box)和分类

  • YOLO网络将图像划分成为SxS的网格,如果物体落入网格中的某个格子,那么这个格子就负责预测这个物体。同时,这个格子将预测B个box以及对应的置信度,这些置信度分数反映了box是否包含物体,以及它认为box预测是物体的准确性,置信度如下图,如果没有物体,那么置信度值为0。IOU表示gt的box与预测的box的交集。
    在这里插入图片描述

  • 每个box由5个预测组成:x、y、w、h置信度。 **(x,y)**坐标表示box的中心(相对于网格单元的边界)。w、h是相对于整个图像的,预测的宽高结果值。置信度就是gt的box与预测的box的交集。

  • 同时,每个网格还预测C个类别的条件概率,这些概率取决于包含物体的网格。不管预测的box有多少,在网格中,只预测一个物体分类概率的结果。在测试的时候,我们把类别条件概率和每个框的预测的置信度值相乘,化简得到下面这个公式。公式的结果是每个box的特定类别的概率。这些分数体现了该类出现在框中的概率以及预测框拟合目标的程度。
    在这里插入图片描述

  • 如图所示,论文将预测SxSx(B*5+C)的tensor值,SxS表示网格数,B表示每个网格有B个预测框,5就是1个置信度和4个坐标值。论文的S设置为7,B设置为2
    在这里插入图片描述

  • 网络结果如下图,参考GoogLeNet,有24个卷积层和2个全连接层,没有用到inception结构,而是用1x1卷积接3x3卷积,1x1卷积用于降维。 Fast YOLO使用的神经网络具有较少的卷积层(9而不是24)和较少的滤波器在这些层。 除了网络的大小,所有的训练和测试参数在YOLO和Fast YOLO都是一样的,最终的输出是7x7x30,对应上述的SxSx(B*5+C)
    在这里插入图片描述

  • 训练。前20层用的ImageNet的预训练参数,后加入4个卷积网络和2个全连接以便提高精度,随机权重初始化,同时输入设置为448x448x3,增大细粒度。除了最后一层用线性激活函数,其他用的leakyReLU激活函数

  • 损失函数如下图所示,1表示网格对应的bbox中是否有物体;坐标预测是(x,y,w,h),含目标的和不含目标的预测分别下了损失;类别预测的1表示网格中是否有物体。有个问题是,坐标预测与不含object的box置信度预测两者的偏重肯定不能相同,坐标的预测要优先一些,因此设置λcoordλnoobj分别为5和0.5。注意,只有网格中有物体进行预测;只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而用哪个box就看其预测值和ground truth box的IoU最大的那个。

在这里插入图片描述
在这里插入图片描述
(图源网络)

论文链接:https://arxiv.org/abs/1506.02640

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小风_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值