YOLO-V4
CV界劳模 细 单GPU训练
BOF: 只增加训练成本 但能显著提高精度 并不影响推理速度
数据增强:调整亮度、对比度、色调、随机缩放、 剪切、 翻转、旋转。
网络正则化的方法: Dropout、 Dropblock等。
类别不平衡,损失函数设计。
Mosaic data augmentation:
方法很简单 ,参考CutMix然后四张图像拼接成一张进行训练。
数据增强
Random Erase: 用随机值或训练集的平均像素值替换图像的区域。
Hide and Seek:根据概率设置随机隐藏一些补丁。
Self-adversarial-training(SAT): 通过引入噪音点来增加游戏难度。
DropBlock:之前的dropout是随机选择点(b) , 现在吃掉一个区域。
Label Smoothing: 神经网络最大的缺点: 自觉不错(过拟合) , 让它别太自信。
Label Smoothing: 簇内更紧密 , 簇间更分离。
IOU损失
GIOU损失
DIOU损失
CIOU损失
公式:
损失函数必须要考虑的三个几何因素:重叠面积、中心点距离、长宽比。
DIOU- NMS:决定是否需要删除框
公式:
SOFT- NMS
Bag of apecials
增加稍许推断代价 , 但可以提高模型精度的方法
网络细节部分加入了很多改进 , 引入了各种能让特征提取更好的方法
注意力机制 , 网络细节设计 ,特征金字塔等
SPPNet:SPP其实就是用最大池化来满足最终输入特征一致即可
CSPNet:
每一个block按照特征图的channel维度拆分成两部分
一份正常走网络 , 另一份直接concat到这个block的输出
CBAM:
Spatial attention module:速度相对能更快一点
PAN:自底向上 底层信息更容易传到顶部
拼接
Mish:计算量效果增加 效果提升
eliminate grid sensitivity
需要非常大的数值达到grid边界
整体网络架构