Yolo V1算法分析 ---网络结构解读 ---损失计算

SpaceSunflower

已于 2024-01-20 17:14:48 修改

阅读量1.4k

点赞数 33

分类专栏： Yolo 文章标签： YOLO 算法

于 2023-12-02 21:45:26 首次发布

本文链接：https://blog.csdn.net/BeTyh/article/details/134758277

版权

Yolo 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

请添加图片描述

Yolo V1 详解

本节内容

该文章涉及如何选择预选框、YOLOV1的网络结构以及卷积计算、最终的损失计算过程。

如果对于IOU、mAP、recall、precision不了解，请先了解以上指标如何计算的。

检测指标Blog：

如果不懂得卷积计算，可以看我的文章

卷积计算Blog：【卷积计算】-单通道卷积 -深度卷积(多通道卷积) -逐点卷积 -实战YoloV1卷积网络 - 池化计算-CSDN博客

特点

经典的one-stage方法
You only look once
检测问题转换为回归问题，一个CNN搞定
可以对视频进行实时检测，应用领域非常广泛

核心思想

每个点，计算的时候存储confidence，设置阈值

每个点存储：

中心点x
中心点y
预选框宽度w
预选框高度h
置信度confidence

如果满足阈值，在两种候选框中，分别计算IOU的值，选择合适的

输入图片

图片大小（448，448，3）

因为卷积层和全连接层的大小是固定的，所以图片大小不可改变，这里要求input图片大小固定（448，448，3）。

在Yolov2之后，取消了fully connected全连接层，图片大小就可以改变了。

通过grid cell分类

图片分割为7 * 7大小的grid cell；在每个grid cell 里面存储30个信息。👇

Our final prediction is a 7 * 7 * 30 tensor，20 types and 2 bounding box with 5 parameter

每个bounding box存储信息(Xt,Yt,Ht,Wt,Confidence)
每个grid cell 存储30个信息

其中Xt和Wt是相对于width的归一化坐标；其中Yt和Ht是相对于High的归一化坐标；

在这里没有anchor的思想，并不是相对于anchor box的相对位移；而是直接预测(x,y,w,h)信息

Define Confidence

在论文中定义confidence的计算
在这里插入图片描述

Pr(Object)=1(如果这个预测框存在目标)or 0 (不存在)

IOU=truth和pred的交集部分/truth和pred的并集部分

所以在这里我们可以理解confidence是IOU

计算类别概率

在这里插入图片描述

最终的类别概率 = bounding box 为该类别的概率 * IOU(truth and pred)

V1网络结构

V1的网络结构借鉴了GoogleNet，采用Conv和Fully connected。

Yolo版本	网络结构
YoloV1	借鉴googleNet，采用Conv和Fully connected结构
YoloV2	借鉴DarkNet19
YoloV3	借鉴DarkNet53

下图是YoloV1的网络结构

在这里插入图片描述

卷积池化过程

图中（448，448，3）经过特征提取得到（7，7，1024）

提取特征的过程是完成以下过程，完成特征提取。

如果不太了解卷积计算请看以下内容，目前已经更新常用的卷积核类型

【卷积计算】-单通道卷积 -深度卷积(多通道卷积) -逐点卷积 -实战YoloV1卷积网络 - 池化计算-CSDN博客

Layer	Stride,Padding	Output
input		（448，448，3）
Conv (7,7,64)	S=2,P=3	（224，224，64）
Maxpooling	S=2	（112，112，64）
Conv (3,3,192)	S=1,P=1	（112，112，192）
Maxpooling	S=2	（56，56，192）
Conv (1,1,128)	S=1,P=1	（56，56，128）
Conv (3,3,256)	S=1,P=1	（56，56，256）
Conv (1,1,256)	S=1	（56，56，256）
Conv (3,3,512)	S=1,P=1	（56，56，512）
Maxpooling	S=2	（28，28，512）
Conv (1,1,256)	S=1	（28，28，256）
Conv (3,3,512)	S=1,P=1	（28，28，512）
Conv (1,1,256)	S=1	（28，28，256）
Conv (3,3,512)	S=1,P=1	（28，28，512）
Conv (1,1,256)	S=1	（28，28，256）
Conv (3,3,512)	S=1,P=1	（28，28，512）
Conv (1,1,256)	S=1	（28，28，256）
Conv (3,3,512)	S=1,P=1	（28，28，512）
Conv (1,1,512)	S=1	（28，28，512）
Conv (3,3,1024)	S=1,P=1	（28，28，1024）
Maxpooling	S=2	（14，14，1024）
Conv (1,1,512)	S=1	（14，14，512）
Conv (3,3,1024)	S=1,P=1	（14，14，1024）
Conv (1,1,512)	S=1	（14，14，512）
Conv (3,3,1024)	S=1,P=1	（14，14，1024）
Conv (3,3,1024)	S=1,P=1	（14，14，1024）
Conv (3,3,1024)	S=2,P=1	（7，7，1024）
Conv (3,3,1024)	S=1,P=1	（7，7，1024）
Conv (3,3,1024)	S=1,P=1	（7，7，1024）