YOLOV1学习总结

Canglang Water

已于 2022-06-19 23:43:30 修改

阅读量630

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉目标检测

于 2022-06-19 18:46:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38584764/article/details/125358518

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

预测阶段01
预测阶段02-NMS
训练阶段

本文是对【同济子豪兄】对YOLOV1讲解所做得总结

预测阶段01

在这里插入图片描述
输入图像经过卷积神经网络后，输出7x7x30的向量。7x7表示将输入图像分为7x7个grid cell, 每个grid cell生成两个预测框，如下图所示，

在这里插入图片描述

每个预测框包含5个数据：x, y, w, h, c (c表示该框预测到物体的概率)，预测框的边缘线越粗，其c值就越大。
由于使用的是Pascal VOC 数据集，共20个预测类别，所以每个grid cell包含30个数据（2*5 + 20 = 30），20表示该 grid cell 预测结果为某一类别的概率。
下图表示每个grid cell预测的类别，每个grid cell只能预测一个类别。

在这里插入图片描述

预测阶段02-NMS

1.将每个 grid cell 的两个 bbox 预测的20个类别的概率按照下图的方式排列：其中bb1的20个数值表示，该bbox置信度 x 20个预测类别的概率

在这里插入图片描述

假如第一排为dog的预测概率，将其排列如下：

在这里插入图片描述

按照从高到低的顺序排列，从第二个bbox开始，依次拿每个bbox的概率与第一个bbox的概率比较，如果IOU大于阈值，证明这两个bbox预测的为同一个物体，将后面的bbox的预测概率置0。如果IOU小于阈值，则不做改变。再依次和第二个bbox的概率进行比较，如下图所示：

在这里插入图片描述

训练阶段

深度学习（监督学习）的训练，是通过梯度下降和反向传播的方法，迭代地去微调神经元中的权重，来使得损失函数最小化的过程。
如图所示，绿色圆点为ground truth的中心点，其所在的 grid cell 生成的bbox用来预测该ground truth。
1、2号框均为同一个 grid cell 的 bbox, 1号框与 ground truth 的IOU较大，因此由1号框负责拟合该ground truth, 损失函数的设计目的就是尽可能让1号框与3号框一致。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLOV1学习总结

本文是对YOLOV1学习的一个总结，目的是为了更加清楚地了解其算法原理，为YOLOV5的学习做铺垫
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。