[笔记]-yolo强化理解随笔加感悟D3

最新推荐文章于 2024-07-31 15:27:41 发布

orangezs

最新推荐文章于 2024-07-31 15:27:41 发布

阅读量1k

点赞数

分类专栏：笔记深度学习目标检测文章标签：人工智能神经网络算法计算机视觉

本文链接：https://blog.csdn.net/ai_faker/article/details/108764516

版权

目标检测同时被 3 个专栏收录

23 篇文章 6 订阅

订阅专栏

深度学习

17 篇文章 4 订阅

订阅专栏

笔记

5 篇文章 0 订阅

订阅专栏

本文逻辑不通，仅供自己阅读
yolo强化理解随笔加感悟D1
yolo强化理解随笔加感悟D2

Day3 pipeline:

1.特征提取器的改进:多尺度思路的全面应用
2.YOLOv4-v5的backbone neck head 对比分析
3.V5代码解读与应用:进行消融实验

一、例子

在这里插入图片描述

反响传播原理，梯度下降
在这里插入图片描述

反响传播就是主要更新backbone参数，可以看做更加复杂的一些方程而已。

二、检测头复习

在这里插入图片描述

正是由于backbone能力的提升，才导致检测头的进化，实现更复杂的检测。
在这里插入图片描述

V5检测头也是这样

三、backbone变化

在这里插入图片描述

V2的 passthroug 技术点比较特别，v3v4舍弃了，V5中用了，其实就是focus层作用，v3/v4/v5 cspdarknet53 但是v5更简洁了。

四、一个很重要的公式

在这里插入图片描述

五、Yolov2的backbone变化

V1
在这里插入图片描述

图片缩小4倍 s-2,可以改变尺寸
卷积核大小77 33 1*1，网络逐渐变宽 v1没有neck没有sparse prediction

对比
在这里插入图片描述

V2
在这里插入图片描述

为和不用77了？VGG试验过后，33 完全可以代替
1.优点计算量小
2.网络可以做的更深，conv层可以更深，非线性能力更强，可以更好提取特征
Bottleneck结构
在这里插入图片描述

33负责扩大感受野，相邻像素之间关系的建立
11负责通道的减少，再进行3*3计算量减少

为什么没有fc了？
根据多尺度思路 24224 与 256256 320*320 仍然可以训练。而fc确固定了输入图片的尺寸。
在这里插入图片描述

就是因为 global avgpool 作用。Global就是最后整体不一定是77,最后都是所有的求均值，变成11000.对提高检测器的性能非常重要。

Backbone是单独train的，就得到一个分类而非检测，用的数据集是imagenet他有1000个类别，这就是darknet19

Bottleneck思想
在这里插入图片描述

E=0.5 c2 = 256

在这里插入图片描述

最后是检测头
Concat技巧，passtrough 做了一个多尺度特征融合
在yolov5中叫focus

2626512 与13131024 concat，就需要2626 变成1313
在这里插入图片描述

相当于切了四片，隔一个取一个像素
V2backbone改进的原则，计算量减少，网络加深

六、Yolov2训练的过程

在这里插入图片描述

Imagenet用224*224训练，就因为gap层的作用，训练效果更好。
所有的检测模型都需要重新设计backbone，也大多遵循以上训练原则，性能才会提升。

七、Yolov3 baackbone
在这里插入图片描述

Residual 残差网络。Conv有53层
Pooling层的丢掉了，利用步长为2的conv层替代了，pooling会丢失特征
在这里插入图片描述

上采样后特征图进行融合

八、Yolov4 baackbone

在这里插入图片描述

Mish 是激活函数，与relu leaky relu都是
Resnet换成了csp下采样
为什么要融合con两次？V3只做了一次而已，反应至
在这里插入图片描述

就是neck这个结构
就是PAN模块起作用，在后面会提

九、Yolov5 baackbone

结构要简单，速度相对快，三个检测头
在这里插入图片描述

Cbl不见了变成了csp。
Focus结构
在这里插入图片描述

V5结构

在这里插入图片描述

注意backbone中的csp与neck中的csp结构并不相同

Spp结构
在这里插入图片描述

作用是将特征图分成不同的格子去pooling，就是对不同的多尺度提特征
在这里插入图片描述

PAN v4 v5 都用
在这里插入图片描述

小目标的信息丢失的比较厉害
在这里插入图片描述

V4中改动
在这里插入图片描述

V5中也是这种。
Mish函数
在这里插入图片描述
可以做的更深还保持相对不错的效果

十、数据增强

在这里插入图片描述

Mixup 不同透明度放在一起，cutmix前置mosaic拼接
在这里插入图片描述

十一、Yolov4 /v5 backbone、neck、head对比

backbone
V5：focus 两个新型csp结构 ssp pan
V4：csp结构+san空间注意力机制
Neck
V5：FPN+PAN+SSP+CSP 又考虑多尺度
V4：fpn+pan+ssp
Prediction
V5：giou__loss 自适应缩放
V4：ciou__loss
自适应缩放输入416416 那么给定800600就需要填充黑边。自己匹配黑边尽量少一点。
十二、消融实验
训练分两步
训练backbone
训练detector