Yolov1-v5新手入门知识点——学习记录

道人兄

已于 2022-08-18 13:11:40 修改

阅读量1.8k

点赞数 2

文章标签：学习深度学习计算机视觉

于 2022-08-18 12:04:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhb3329/article/details/126402440

版权

1.YOLOV1

第一个版本是所有版本的基础，为监督学习，主要理解Ground truth、Grid cell、Bounding box区别，提出的IOU、NMS、损失函数、训练测试过程

IOU：交并比，计算两个预测框之间交集部分比例

NMS：在IOU基础上，有效删除冗余检测的结果，依次大小顺序计算与最大bbox之间iou大小，超过阈值删除，代表检测物体重复

损失函数：将目标检测问题以归一化处理，包括坐标误差、宽高误差、负责监测物体bbox置性度误差、不负责检测物体bbox置性度误差、grid cell分类误差

训练：

人工标注图片导入模型中
标注图片框中心所在grid cell为检测窗口
模型计算生成（x,y,w,h,c）及对应20个类别坐标，总7*7*（2*5+20）=7*7*30
计算对应loss
优化（正常网络模型训练）……

测试：

图片输入模型生成7*7*（2*5+20），包括bbox置信度、分类概率（条件概率）
计算confidence score=置信度c*分类概率
计算NMS
得出结果

2.YOLOV2

第二版本相对于第一版本主要提出了使用锚框anchor，通过聚类分析得出特定形状以及数量（设定每个grid cell生成5个anchor）
使用BN（batch normalization）：于线性层与非线性层之间进行归一处理并加上相应权重（有点像正态分布），减少数据丢失或过拟合
模型输出：tx，ty，tw，th计算得出预测框实际坐标及宽度，即bx,by,bw,bh

图来自b站同济子豪兄【精读AI论文】YOLO V2目标检测算法_哔哩哔哩_bilibili

3.YOLOV3

采用多尺度融合，输入416*416*3，输出13*13*255, 26*26*255， 52*52*255其中255包括3个anchor坐标信息置信度及80种分类概率，即3*5*80=255
借鉴resnet网络中残差结构，构建更深的网络
采用下采样后上采样传递语义信息，增强目标信息
激活函数使用leaky-relu

4.YOLOV4&V5

V4是在v3的多尺度融合上更进一步的优化及堆料，而V5可以说是对V4的网络优化、轻量化，两者合并分析：

共同点：

使用Mosic数据增强结构：4张图片随机缩放、随机裁剪、随机排布，更有利于小目标检测
增加了spp多层池化增强主干特征、cspx下采样（V5包括csp1_x、csp2_x）
使用FPN+PAN上下采样结构传递语义信息
训练时采用CIOU_loss计算方式，考虑边框宽高比（ciou）、边框中心距离（diou）、边界重合（giou）、重叠面积（iou）
Nms计算采用DIOU_NMS，测试时没有gt，所以用不了Ciou
激活函数采用mish

不同点：

V3v4单独使用程度进行图片转换，V5进行自适应图片缩放计算
V5采用自适应锚框计算，每次训练自适应计算不同训练集中最佳锚框值
模型不同深度与宽度，V5分为yolov5s、yolov5m、yolov5l、yolov5x

yolov4网路框图：

yolov5网络框图：

学习来源：深入浅出Yolo系列之Yolov5核心基础知识完整讲解_江大白*的博客-CSDN博客_yolov5

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Yolov1-v5新手入门知识点——学习记录

学习YOLOv1-v5学习记录，包括网络框架重点及区分
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。