论文(1) YOLO v1

YOLO v1

@(目标检测)

论文地址:https://arxiv.org/abs/1506.02640
网络结构

enter image description here
enter image description here
Yolo网络由24个卷积层和2层全连接层构成,其中,卷积层用来提取图像特征,全连接层用来预测图像位置和类别概率值。全连接层之后,会将原来的一维的tensor resize成SxSx(Bx5+C)的三维tensor。

YOLO网络借鉴了GoogLeNet分类网络结构。不同的是,YOLO未使用inception
module
[1] [ 1 ] ,而是使用1x1卷积层(此处1x1卷积层的存在是为了跨通道信息整合)+3x3卷积层简单替代。

YOLO将输入图像分成SxS个grid,每个grid负责检测”落入”该grid的物体(“落入”,或者“包含”,其含义是指物体的中心坐标在这个grid里面)。若某个物体的中心位置的坐标落入到某个grid,那么这个grid就负责检测出这个物体。
这里写图片描述

图中物体狗的中心点(红色原点)落入第5行、第2列的grid内,所以这个grid负责预测图像中的物体狗。

每个grid输出B个bounding box(包含物体的矩形区域)信息,以及C个物体属于某种类别的概率信息。
enter image description here
bounding box包含:x, y, w, h, confidence

x,y: 当前所预测的bounding box中心位置的坐标(Train中则为预测的bounding box的中心与栅格边界的相对值)
w,h: 当前所预测的bounding box的宽度和高度(Train中则为预测的bounding box的w,h相对于整幅图像w,h的比例)
confidence: P(obj) * IoU [2] [ 2 ] ,P(obj)表示所预测的bounding box包含物体的概率,若包含,则P(obj)=1,反之P(obj)=0。

C个物体属于某种类别的概率信息:P(class)/P(obj), VOC数据集C=20。

在B个bounding box中,对于每一个bounding box,其具体类别的 confidence score=P(class)/P(obj)confidence=P(class)IoU c o n f i d e n c e   s c o r e = P ( c l a s s ) / P ( o b j ) ∗ c o n f i d e n c e = P ( c l a s s ) ∗ I o U

Loss

YOLO的loss构成比较复杂,分为三个部分,并且对于每个部分,YOLO考虑了该部分的贡献程度,所以还加上了各种权重系数 λ λ

loss=i=0s2coordErr+IoUErr+clsErr l o s s = ∑ i = 0 s 2 c o o r d E r r + I o U E r r + c l s E r r

第一部分是计算关于检测框坐标的loss

i=0s2coordErr=λcoordi=0s2j=0B
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值