关于yolov1的视频笔记和自己的理解

最新推荐文章于 2024-09-14 21:56:38 发布

Minsec'

最新推荐文章于 2024-09-14 21:56:38 发布

阅读量151

点赞数

文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/MaLakas/article/details/120338761

版权

yolo v1的笔记&简单理解

本笔记参考自b站视频视频链接
首先简单了解一下yolov1的网络结构

视频截图

yolov1的运作过程大致分为3部分：模型训练，模型预测和后处理（非极大抑制）

1、模型训练过程
v1的损失函数如下图，（关于grid cell和bounding box现在可能不太理解，看了后文再回来看应该就可以理解了）
在这里插入图片描述
每个grid cell有2个bounding box，从2个中选一个检测物体。损失函数由5部分组成，前两部分是负责检测物体吧boundind box的位置误差（中心点和宽高），中间两部分为两个bounding box的置信误差，最后一部分是负责检测物体的grid cell的分类误差。

2、模型预测过程
在这里插入图片描述
通俗讲，就是把图片分为SxS（上图为7x7）个格子（grid cell），每个格子预测两个部分，第一个部分是两个bounding box（可能的边界框），每个bounding box包含位置（x，y，h，w）和可能性c（置信度）5个信息；第二部分是该格子最可能的的类别（20个中最大的一个）。所以每个格子都含有5（第一个bounding box）+5（第二个bounding box）+20（20个种类的概率）=30个参数，通过yolo的结构，输入448x448x3的图片，输出7x7x30的张量。（关于张量的概念这里不做解释，可以简单理解为多维矩阵）

3、后处理&nms非极大抑制值
后处理是为了将预测所得的7x7x30的张量变为最终结果
在这里插入图片描述每个grid cell有30个参数（5+5+20），首先对每个grid cell用它每个bounding box的置信度（c）乘20个种类每个种类的概率得到每个种类的概率（20x1的张量）。一共可以得到98（7x7x2）个20x1的张量。98个框如上中图所示。