yolo系列笔记（v4-v5）

mhuang..

已于 2023-07-30 21:52:47 修改

阅读量328

点赞数 1

分类专栏： cv记录文章标签： YOLO 笔记

于 2023-07-30 21:52:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuabiku/article/details/132009909

版权

cv记录专栏收录该内容

4 篇文章 6 订阅

订阅专栏

YOLOv4

YOLOv4网络详解_哔哩哔哩_bilibili

网络结构，在Yolov3的Darknet的基础上增加了CSP结构。

CSP的优点：

加强CNN的学习能力

去除计算瓶颈。

减少显存的消耗。

结构为：

、

其实还是类似与残差网络的结构，保留下采样之前的特征和下采样之后的特征进行拼接，让模型的特征信息能够更全面。

SPP

PAN结构

FPN是将特征层向下累加，这样对于任意特征层来说，他是看不到其下面特征层的信息的，PAN在FPN的基础上，采取了个向上加的功能，让特征层包含的信息更全面。有点类似RNN单向叠加的感觉。这里注意，Yolov4将叠加操作改成了concat拼接。

优化策略

针对前作中的预测框定位的问题。

如果GT真实框真好落在边界点，预测值txty想预测这个边界点的话取值需要趋向于无穷，这显然是很难达到的，所以在v4和v5中对做了一点改进：

问题：这里我个人觉得有点矛盾，因为用sigmoid函数的目的就是为了限制0~1（在一个cell之内）但是这么改进了之后又限制不了了，哪怕是做截断感觉也没啥意义，为啥不用一个简单的函数做映射呢？（下面会做解释）

正负样本分配：

通过计算GT真实框与预设anchor框的IOU来判断正负样本，对于yolov3来说，只采用与GT的IOU最大的anchor作为正样本，Yolov4改成了只要满足IOU大于阈值，那么都是正样本，这样做扩充了正样本的数量。

这里有个改动，Yolov4提出，为了消除grid cell的敏感度，同时也为了扩展正样本数量，落在某个cell内的GT真实框还可能被其周围cell来预测，

因为现在的映射函数改成了：，所以其范围是（-1.5，1.5）相当于以左上角的点作为起点的话，预测框是可以超出一个cell的距离的，像下图3个cell都可以对黑点这个真实框做预测，相当于扩充了正样本的数量，让预测框不被cell限制的那么死。

YOLOV5

YOLOv5网络详解_哔哩哔哩_bilibili

SPP->SPPF

SPP

SPPF

2个k=5的Maxpooling可以等同于一个k=9的Maxpooling，3个k+5等于K=9， SPPF和SPP效果是一样的，但是效率高很多

数据增强

Mosaic：4个拼成一个

copy paste: 将图像抠出来贴到另一张上

Rand affine :随机的缩放，平移等。

MIXup: 调整透明度后叠加

Augment HSV：调整色度，饱和度等

训练策略

损失函数

消除grid敏感度

这个基本和Yolov4中的一样，但Yolov5将长和宽也进行的改动，之前的容易出现指数爆炸，造成BwBh值过大，导致训练不稳定

匹配正样本

Yolov4匹配正样本是通过IOU的阈值是否大于某个预设值来判断是否为正样本，Yolov5在v4的基础上进一步对框的长宽进行限制，下图Rmax是预测框和真实框长宽比值的最大值，当这个最大值超出限制时则将样本设置为负。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
yolo系列笔记（v4-v5）

FPN是将特征层向下累加，这样对于任意特征层来说，他是看不到其下面特征层的信息的，PAN在FPN的基础上，采取了个向上加的功能，让特征层包含的信息更全面。，所以其范围是（-1.5，1.5）相当于以左上角的点作为起点的话，预测框是可以超出一个cell的距离的，像下图3个cell都可以对黑点这个真实框做预测，相当于扩充了正样本的数量，让预测框不被cell限制的那么死。这个基本和Yolov4中的一样，但Yolov5将长和宽也进行的改动，之前的容易出现指数爆炸，造成BwBh值过大，导致训练不稳定。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。