YoLoV1

在这里插入图片描述
在这里插入图片描述

预测阶段

  1. 首先将一张图片分成了S×S个网格

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5pL32Ty6-1664513968293)(media/image3.png)]{width="5.768055555555556in"
height="4.486111111111111in"}

  1. 每一个grid cell 预测出两个bounding
    box,其中一个的置信度比较高,另外一个置信度比较低(由矩形框的粗细来体现),

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3VBenUV4-1664513968293)(media/image4.png)]{width="2.905259186351706in"
height="2.2441786964129484in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hzE0xgb1-1664513968293)(media/image5.png)]{width="2.883938101487314in"
height="2.2575667104111985in"
}

下面这两个bounding box都比较低

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZvsE0ckJ-1664513968293)(media/image6.png)]{width="2.7740430883639546in"
height="2.1855686789151356in"
}[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NJXnpaHe-1664513968294)(media/image7.png)]{width="2.9081277340332456in"
height="2.2421916010498686in"
}

  1. 每一个grid cell还能够生成20个类别的条件概率,每个grid
    cell只能有一个类别,进而每一个grid
    cell只能预测出来一个物体。(这就带来了缺点:对于小目标和密集目标识别性能差的原因)

 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-POlGDHai-1664513968294)(media/image8.png)]{width="5.768055555555556in"
height="4.520833333333333in"
}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LVINDsZm-1664513968294)(media/image9.png)]{width="5.768055555555556in"
height="3.2604166666666665in"
}[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-10w95VJq-1664513968295)(media/image10.png)]{width="5.768055555555556in"
height="3.245833333333333in"
}

  1. 完整预测过程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9FIr2FfJ-1664513968295)(media/image11.png)]{width="4.280415573053368in"
height="3.302814960629921in"}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X06JwuP0-1664513968295)(media/image12.png)]{width="5.768055555555556in" height="3.94375in"}

预测阶段后处理

-置信度过滤 NMS非极大值抑制

**NMS(非极大值抑制):**把复杂的预测出来的98个bounding
box进行筛选、过滤,把重复的bounding
box只保留一个,最终获得目标检测的结果(即把低置信度的box过滤掉以及把重复的box过滤掉,只保留一个)。

**具体步骤如下:**[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fVFmsxbQ-1664513968295)(media/image13.png)]{width="5.768055555555556in"
height="3.295138888888889in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIGkK41e-1664513968296)(media/image14.png)]{width="5.768055555555556in"
height="3.2576388888888888in"}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MktyPUkN-1664513968296)(media/image15.png)]{width="5.768055555555556in"
height="3.2423611111111112in"}

训练阶段(反向传播)

监督学习或者说深度学习是通过梯度下降和反向传播方法迭代的去微调神经元中的权重来使得损失函数最小化的过程。

目标检测是一个典型的监督学习问题,在训练集上有人用labelimg标注软件画出了一个ground
truth(即绿色框),而我们的算法就是让预测结果尽量拟合这个绿色框,使得损失函数最小化。损失函数是如何构建的,后面讲解。而这个绿框的中心点落在了哪个grid
cell里面,就应该由哪个grid cell预测出的bounding
box去负责拟合这个框。因为每一个grid cell预测出两个bounding
box,那就是这两个box之中的一个去负责拟合这个绿框,并且这个绿框输出的类别也应该是这个ground
truth的类别,每一个grid
cell要获得20个类别的条件概率,这20个概率乘以每一个框的置信度获得全概率,每一个grid
cell只能有一个类别,即每个grid
cell只能预测一个物体。即最多只能预测S×S个物体。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DSsjaArd-1664513968296)(media/image16.png)]{width=“0.5in”
height=“0.5in”}的概率应该是最大的,那么它就成为了这个grid
cell的代表类别。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w1GmGOmV-1664513968297)(media/image17.png)]{width="2.831826334208224in"
height="2.227344706911636in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4NbSOXL4-1664513968297)(media/image18.png)]{width="2.932629046369204in"
height="2.325695538057743in"}

  1. 有ground truth中心点落的grid cell的情况

每一个grid cell预测出两个bounding box,那么哪一个box来拟合ground
truth呢?即应该由和ground truth的交并比(IOU–Intersection
over Union)比较大的,在下面这张图上就应该是外围的虚线绿框去拟合ground
truth,另外一个框不需要做什么。实线绿框是ground
truth的框,外围虚线框是要去拟合这个实线绿框的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MgtndB8Y-1664513968297)(media/image19.png)]{width="2.7684547244094486in"
height="2.258494094488189in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pOunnkQa-1664513968297)(media/image20.png)]{width="2.6186340769903764in"
height="2.0599759405074365in"
}[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KN9tvePf-1664513968298)(media/image21.png)]{width="2.791042213473316in"
height="2.776593394575678in"}

两个bounding box的中心都落在一个grid cell里面

  1. 没有Ground truth中心点在的grid cell

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ay9SiL02-1664513968298)(media/image22.png)]{width="2.967732939632546in"
height="2.1779254155730534in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pfwpzsvZ-1664513968298)(media/image23.png)]{width="2.778601268591426in"
height="2.1466754155730534in"}

该grid cell预测的两个bounding
box被判为无效box,置信度越小越好,最好为0。

这样就可以构建其损失函数了,

YOLO_V1损失函数(Loss Function):

每一项都是平方和误差 将目标检测问题当做回归问题

回归问题就是要预测一个连续的值,把这个值和标注的值进行比较,越接近越好,所以YOLO是把目标检测问题当做回归问题去解决的,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8VAuIvu-1664513968299)(media/image24.png)]{width="3.9578608923884513in"
height="3.707694663167104in"}

  1. 负责检测物体的bounding box中心点定位误差

  2. 负责检测物体的bounding
    box宽高定位误差(加根号可以使小框对误差更敏感)

PS:①②是坐标回归误差

  1. 负责检测物体的bounding box的confidence误差,

  2. 不负责检测物体的bounding
    box的confidence误差;即被判为无效box,最好为0。

PS:一个bounding box负责检测物体,则另外一个bounding
box就不负责检测物体

  1. 负责检测物体的grid cell分类误差

PS:

λcoord是一个权重值对于发挥作用较大的给予较大的权重,来凸显他。

发挥作用比较小的给予较小的权重,以消除他的影响

∑ i = 0 S 2 () \sum_{\mathbf{i = 0}}^{\mathbf{S}^{\mathbf{2}}}\mathbf{()} i=0S2():遍历S×S个grid
cell

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mqJZzYV0-1664513968299)(media/image25.png)]{width="5.479166666666667in"
height="0.9340277777777778in"}
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tvSiCgXN-1664513968299)(media/image26.png)]{width="5.506944444444445in"
height="0.8555555555555555in"}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XQFCwjo2-1664513968300)(media/image27.png)]{width="5.520833333333333in"
height="1.2965277777777777in"}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yz92p0qp-1664513968300)(media/image28.png)]{width="5.527777777777778in"
height="1.1791666666666667in"}

④[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ByHknui4-1664513968300)(media/image29.png)]{width=“5.451388888888889in”
height=“1.3430555555555554in”} ⑤
77777778in"
height=“1.1791666666666667in”}
[外链图片转存中...(img-ByHknui4-1664513968300)]{width="5.451388888888889in"
height="1.3430555555555554in"}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值