YOLOv1学习笔记

YOLOv1

论文:You Only Look Once

在这里插入图片描述

思想:

  1. 将一幅图像分成S*S个网格,如果某个object(bounding box)的中心落在这个网格中,则这个网格就负责预测这个object

  2. 每个网格要预测B个bounding box(因为每个网格中可能存在多个object),每个bounding box除了要预测位置之外,还要附带预测一个confidence值,每个网格还要预测c个类别的分数

    例如:

    • 将图像分成7 * 7个网格,每个网格预测2个bounding box,总共20个类别,则最终的预测是7 * 7 *30个tensor(张量)
    • 其中30的由来:
      • 每个网格需要预测两个bounding box,则需要两个bounding box的坐标值(x,y,w,h),然后每个bounding box还需要有各自的一个confidence值,再加上总共有20个类别,所以每个网格总共有:4+4+1+1+20=30个tensor(张量)
      • 在这里插入图片描述
      • 其中(x,y)为预测目标边界框的中心坐标(相对于网格),即横纵坐标轴为中心所在网格的长和宽,范围在(0,1)
      • 其中(w,h)为预测目标的高和宽(相对于整个图像而言),范围在(0,1)
      • 其中confidence为Pr(Objcet) * IOU,其中IOU为预测的目标目标边界框与所对应的真实目标边界框的交并比,Pr(Objcet)的值只能为0(网格中没有目标落入)或者1(网格中有目标落入)
  3. 最终给出的类别概率分数为:在这里插入图片描述

网络结构:

在这里插入图片描述

此时可以发现,最终得到的是一个图片大小为7 * 7 深度为30的图像,在YOLOv1论文中,作者把图像分成7 * 7个网格,张量为30(4+1+4+1+20),(每个网格有两个bounding box,每个bounding box有(x,y,w,h,confidence)5个张量,总共有20个类别)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值