YOLO算法学习记录

最新推荐文章于 2024-03-02 18:10:31 发布

weixin_43213607

最新推荐文章于 2024-03-02 18:10:31 发布

阅读量116

点赞数

本文链接：https://blog.csdn.net/weixin_43213607/article/details/106600951

版权

一、前言终于要好好看YOLO这篇论文了，防止记忆衰退，特此记录，方便回顾！

二、YOLOV1论文

1.要点记录

（1）.把目标检测问题看做是回归问题，而不是分类问题

（3）resize输入图片尺寸为448*448
（4）对小目标检测定位效果不佳

2.组件

（1）对输入图像划分 $S$ 个网格，如果物体的中心落在某一个网格中，那么这个网格就负责预测该物体
(2)每个网格预测 $B$ 个bounding box, 和每个bounding box的置信度
(3)置信度confidence:
置信反映了Box中包含物体的信心和预测边框与真实标签的IOU交并比，如果有物体 $P r$ 为0，
$IOU^{truth}_{pred}$
（4）每个bounding box有5个预测值， $x, y, w, h,$ 和置信度，其中， $x, y$ 代表预测框相对于网格边界的中心位置, 置信度预测代表bounding box与标签ground truth的交并比IOU
(5)每个网格只负责预测一个物体条件概率 $C,C= Pr(Class_i|Object)$ ，，不管每个网格grid有多少个bounding box，比方说，目标检测行人、汽车、卡车，那么每个网格只能预测一种，要么预测的是汽车，要么是卡车，要么是行人，不可以又是行人又是卡车，无论每个网格预测有多少个Bounding box
(6)把条件概率与置信度相乘，得到了每个bounding box的class-specific confidence score，这个分数反映了预测框预测的类别概率，比如预测是行人的概率为0.8，以及预测框与真实标签ground truth的一个贴合程度，公式如下：
$Pr(Class_i|Object) *( Pr(Object) *IOU^{truth}_{pred})=Pr(Class_i)*IOU^{truth}_{pred}$
(7) 输出（预测）尺寸为 $S * S * (B * 5 + C)$
由于原文用的是VOC数据集，预测20个种类，划分为7个网格，每个网格预测2个bounding box，
因此，输出尺寸为 $7 * 7 * (2 * 5 + 20)$

3.网络设计

1.继承GooLeNet模型，由24个卷积层和2个全连接层组成，还采用了11卷积核进行降维减少通道数，再利用33卷积核，最后一层使用的是线性层，其余都使用的是leaky Relu激活函数，优化器使用的是sum-squared error(平方误差损失），超参数设置：batch64，动量0.9, 学习衰减率0.0005，
2.Fast-yolo的卷积层数是9，最后的网络输出也是7730
3.由于输出包含bounding box的位置信息以及类别预测概率，因此对bbx的长和宽用图像的长宽尺寸进行归一化，
而bbx的坐标x，y设置为某一个网格的偏移量offest

三、YOLOV3

1.关于anchor box
anchor box的尺寸是基于416416图像上设计的，然后在不同的输出层中，会通过相应的strides映射到相应的尺寸，因此，在预测 $b_w$ 和 $b_h$ 的时候， $p_w$ 和 $p_h$ 是通过stride被映射到了相应的尺寸，比如说feature map为1313，那么anchor box会被缩小32倍得到 $p_w$ 和 $p_h$ 。

2.关于ground truth标签的坐标x，y，w，h，为了防止扭曲，应该先等量缩放至416416，在416416图像上计算出具体的坐标，再缩放到1313的feature map上的坐标

weixin_43213607

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLO算法学习记录

一、前言终于要好好看YOLO这篇论文了，防止记忆衰退，特此记录，方便回顾！二、YOLOV1论文1.要点记录（1）.把目标检测问题看做是回归问题，而不是分类问题（3）resize输入图片尺寸为448*448（4）对小目标检测定位效果不佳2.组件（1）对输入图像划分SSS个网格，如果物体的中心落在某一个网格中，那么这个网格就负责预测该物体(2)每个网格预测BBB个bounding box, 和每个bounding box的置信度(3)置信度confidence:置信反映了Box中包含物体的信
复制链接

扫一扫