【目标检测】YOLOv5

最新推荐文章于 2024-07-26 11:05:55 发布

YFR718

最新推荐文章于 2024-07-26 11:05:55 发布

阅读量4.9k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/YFR718/article/details/115212991

版权

深度学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

http://yli17.cn/caRlQ

网络结构

在这里插入图片描述

性能

在这里插入图片描述
Yolov5s网络最小，速度最少，AP精度也最低。但如果检测的以大目标为主，追求速度，倒也是个不错的选择。

其他的三种网络，在此基础上，不断加深加宽网络，AP精度也不断提升，但速度的消耗也在不断增加。

目前使用下来，yolov5s的模型十几M大小，速度很快，线上生产效果可观，嵌入式设备可以使用。

核心思想

Mosaic数据增强

Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果很不错。

自适应锚框计算

在Yolo算法中，针对不同的数据集，都会有初始设定长宽的锚框。在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框groundtruth进行比对，计算两者差距，再反向更新，迭代网络参数。
yolov5s初始设定的anchor
在这里插入图片描述
Yolov5中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。
当然，如果觉得计算的锚框效果不是很好，也可以在代码中将自动计算锚框功能关闭。

自适应图片缩放

在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。
在这里插入图片描述
图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标检测速度会得到提升。
通过这种简单的改进，推理速度得到了37%的提升，可以说效果很明显。

Focus结构

在这里插入图片描述
Focus是Yolov5新增的操作，右图就是将443的图像切片后变成2212的特征图。

以Yolov5s的结构为例，原始6086083的图像输入Focus结构，采用切片操作，先变成30430412的特征图，再经过一次32个卷积核的卷积操作，最终变成30430432的特征图。

需要注意的是：Yolov5s的Focus结构最后使用了32个卷积核，而其他三种结构，使用的数量有所增加。

CSP结构

Yolov4借鉴了CSPNet的设计思路，在主干网络中设计了CSP结构，但只有主干网络使用了CSP结构。
在这里插入图片描述
Yolov5中设计了两种CSP结构，以Yolov5s网络为例，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。

在这里插入图片描述
CSPNet(Cross Stage Partial Network):跨阶段局部网络，以缓解以前需要大量推理计算的问题。

增强了CNN的学习能力，能够在轻量化的同时保持准确性。
降低计算瓶颈。
降低内存成本。
CSPNet通过将梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时可以保证准确率。

CSPNet和PRN都是一个思想，将feature map拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行concate。

neck部分

Yolov5的Neck和Yolov4中一样，都采用FPN+PAN的结构。
在这里插入图片描述
Yolov4的Neck结构中，采用的都是普通的卷积操作。而Yolov5的Neck结构中，采用借鉴CSPnet设计的CSP2结构，加强网络特征融合的能力。

输出端

主要是IOU的不同计算方法，这一块要重点理解，对于目标检测的输出结果有很大的影响（重叠）

GIOU

Yolov5中采用其中的GIOU_Loss做Bounding box的损失函数。
在这里插入图片描述
上面公式的意思是：先计算两个框的最小闭包区域面积 [公式] (通俗理解：同时包含了预测框和真实框的最小框的面积)，再计算出IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU。
在这里插入图片描述
用图片来进行理解就是：

两个框的最小闭包区域面积 = 红色矩形面积
IoU = 黄色框和蓝色框的交集 / 并集
闭包区域中不属于两个框的区域占闭包区域的比重 = 蓝色面积/ 红色矩阵面积
GIoU = IoU - 比重

DIoU

DIoU要比GIou更加符合目标框回归的机制，将目标与anchor之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题。
在这里插入图片描述

优点：

与GIoU loss类似在与目标框不重叠时，仍然可以为边界框提供移动方向。
DIoU loss可以直接最小化两个目标框的距离，因此比GIoU loss收敛快得多。
对于包含两个框在水平方向和垂直方向上这种情况，DIoU损失可以使回归非常快，而GIoU损失几乎退化为IoU损失。
DIoU还可以替换普通的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效。

CIOU

在这里插入图片描述

nms非极大值抑制

在目标检测的后处理过程中，针对很多目标框的筛选，通常需要nms操作。

因为CIOU_Loss中包含影响因子v，涉及groudtruth的信息，而测试推理时，是没有groundtruth的。

所以Yolov4在DIOU_Loss的基础上采用DIOU_nms的方式，而Yolov5中采用加权nms的方式。

不同的nms，会有不同的效果，采用了DIOU_nms的方式，在同样的参数情况下，将nms中IOU修改成DIOU_nms。对于一些遮挡重叠的目标，确实会有一些改进。

比如下面黄色箭头部分，原本两个人重叠的部分，在参数和普通的IOU_nms一致的情况下，修改成DIOU_nms，可以将两个目标检出。

虽然大多数状态下效果差不多，但在不增加计算成本的情况下，有稍微的改进也是好的。
在这里插入图片描述

Yolov5四种网络的深度

在这里插入图片描述

Yolov5四种网络的宽度

在这里插入图片描述

YFR718

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
【目标检测】YOLOv5

http://yli17.cn/caRlQ网络结构性能Yolov5s网络最小，速度最少，AP精度也最低。但如果检测的以大目标为主，追求速度，倒也是个不错的选择。其他的三种网络，在此基础上，不断加深加宽网络，AP精度也不断提升，但速度的消耗也在不断增加。目前使用下来，yolov5s的模型十几M大小，速度很快，线上生产效果可观，嵌入式设备可以使用。核心思想Mosaic数据增强Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。随机缩放、随机裁剪、随机排布的方式进行拼.
复制链接

扫一扫

专栏目录