原视频链接
网络结构
网络结构:
Backbone:New CSP-Darknet53
Neck:SPPF,New CSP-PAN
Head:YOLOv3 Head
将Focus模块替换成了6*6的普通卷积层。
两者的功能相同,但后者的效率更高
将SPP换为SPPF
数据增强-Copy paste(复制粘贴)
将不同图片中的目标给复制粘贴在一起
使用注意:每个图片当中必须有目标实例分割的标签
数据增强-Random affine(随机仿射变换)
旋转、缩放、平移、错切
数据增强-Mixup(混合)
将两张图片按照一定的透明程度混合为一张新的图片
数据增强-Albumentations
滤波、直方图均衡化以及改变图片质量等等
数据增强-Augment HSV(Hue,Saturation,Value)
增强色度、饱和度、明暗度
数据增强-Random horizontal flip(随机水平翻转)
训练策略
- 多尺度训练(0.5~1.5x)
- 自动根据数据集的目标重新聚类生成新的anchor
- 训练初期将学习率从一个非常小的值慢慢增长到设置的初始学习率
- 给学习变量增加了一个动量,这样我们在更新参数的时候就会更加的平滑一些
- 混合精度训练
损失计算部分
Classes loss,分类损失,采用的是BCE loss,注意只计算正样本的分类损失
Objectness loss,obj损失,采用的是BCE loss,注意这里的obj指的是网络预测的目标边界框与GT BOX的IoU。这里计算的是所有样本的obj损失
Location Loss,定位损失,采用的是CIoU Loss,注意只计算正样本的定位损失
小型目标更难预测,所以权重更大
消除Grid敏感度
Anchor Template和GT在宽高方面的差异,在4倍以内就匹配成功
根据中心点的位置去获取对应的Grid cell(与YOLOv4相同)