YOLOv5结构记录（持续更新中）

有温度的AI

已于 2022-06-11 12:40:55 修改

阅读量4.9k

点赞数 8

文章标签：深度学习人工智能

于 2022-05-26 12:13:03 首次发布

本文链接：https://blog.csdn.net/m0_56247038/article/details/124953508

版权

YOLOv5的详细结构图

YOLOv5中的Bottleneck

YOLOv5的 6.0版本相较于5.0版本的改动：

FPN和PAN结构

YOLOv5的结构图

YOLOv5中的Bottleneck

BottleNeck1：先是1x1的卷积层（conv+batch_norm+silu)，然后再是3x3的卷积层，最后通过残差结构与初始输入相加。

BottleNeck2：先是1x1的卷积层（conv+batch_norm+silu)，然后再是3x3的卷积层，没有加入残差结构。

BottleNeck1用在主干网络中， BottleNeck2用在neck中。

YOLOv5的 6.0版本相较于5.0版本的改动

Backbone部分有一个很小改动，把网络的第一层（原来是Focus模块）换成了一个conv卷积层

在Neck部分的变化还是相对较大的，首先是将SPP(Spatial Pyramid Pooling)换成成了SPPF，两者的作用是一样的，但后者效率更高。

SPP结构又被称为空间金字塔池化，能将任意大小的特征图转换成固定大小的特征向量。结构如下图所示，是将输入并行通过多个不同大小的MaxPool，通过三种尺度的池化，将任意大小的特征图固定为相同长度的特征向量，传输给全连接层。因为卷积层后面的全连接层的结构是固定的。但在现实中，我们的输入的图像尺寸总是不能满足输入时要求的大小，然而通常的手法就是裁剪(crop)和拉伸(warp)，但这样做总归是不好的，其扭曲了原始的特征。而SPP层通过将候选区的特征图划分为多个不同尺寸的网格，然后对每个网格内都做最大池化，这样依旧可以让后面的全连接层得到固定的输入。

而SPPF结构是将输入串行通过多个5x5大小的MaxPool层，这里需要注意的是串行两个5x5大小的MaxPool层是和一个9x9大小的MaxPool层计算结果是一样的，串行三个5x5大小的MaxPool层是和一个13x13大小的MaxPool层计算结果是一样的。SPPF把池化后得到的特征一部分拿去concat一部分继续池化，应该是想通过不同层次池化得到不同层次的特征，效果好一些。