这篇博客写的很详细yolov5理论学习笔记,我这里主要结合代码再进行自己的总结记录。
YOLOV5和V4对比
参考,v5还没正式发表论文,该链接总结可能与最终版本存在出入。我这里下载最新版本,结合源码重新做了总结
1)数据增强上,v4使用crop/遮挡/cutmix/mosaic多种数据增强技术,v5scale/hue/mosaic,v4借鉴了v5的图像增强(这部分暂时没看最新源码)
2)v4使用了标签平滑技术,v5没有(最新源码有标签平滑代码,只是没有提供参数,默认不使用标签平滑)
3)v5有自适应瞄框
4)都使用cspdarknet做backbone,spp+pan做neck
5)v4使用Mish激活函数(计算代价高),v5使用Leaky ReLU
6)损失函数,YOLO V5使用 GIOU Loss作为bounding box的损失,YOLO V4使用 CIOU Loss作为bounding box的损失(v5最新源码也使用了CIOU)
7)v5大大提高了正样本数量,每个框的中心位置附近四舍五入再在相邻两个位置在增加两个正样本,样本标签的x,y范围也变成了(-0.5~1.5),最终生成bbox公式也不一样。
正样本增加了三倍左右,模型得以快速收敛
网络结构
1)Focus结构,对输入的四种下采样切片后Concat,输入[n,c,h,w]->[n,c*4,h/2,w/2]
2)csp1与上面链接不一样,concat后没有bn+leakrelu,不知是不是Yolo v5还在更新的原因
后续补充