一、Bag of freebies(BOF)
1.只增加训练成本 , 但是能显著提高精度 , 并不影响推理速度。
2.数据增强: 调整亮度、 对比度、 色调、 随机缩放、 剪切、 翻转、 旋转。
3.网络正则化的方法: Dropout、 Dropblock等。
4.类别不平衡 , 损失函数设计。
二、Mosaic data augmentation
1.方法很简单 ,参考CutMix然后四张图像拼接成一张进行训练。
三、数据增强
1.Random Erase: 用随机值或训练集的平均像素值替换图像的区域。
2.Hide and Seek: 根据概率设置随机隐藏一些补丁。
四、Self-adversarial-training(SAT)
1.通过引入噪音点来增加游戏难度。
五、DropBlock
1.之前的dropout是随机选择点(b) , 现在吃掉一个区域。
六、Label Smoothing
1.神经网络最大的缺点: 自觉不错(过拟合)。
2.使用之后效果分析:簇内更紧密 , 簇间更分离。
七、IOU损失
1.没有相交则IOU =0无法梯度计算 , 相同的IOU却反映不出实际情况。
2.GIOU损失:
引入了最小封闭形状C( C可以把A , B包含在内)。
在不重叠情况下能让预测框尽可能朝着真实框前进。
3.DIOU损失:
其中分子计算预测框与真实框的中心点欧式距离d。
分母是能覆盖预测框与真实框的最小BOX的对角线长度c。
直接优化距离 ,速度更快 , 并解决GIOU问题。
4.CIOU损失:
损失函数必须考虑三个几何因素: 重叠面积 , 中心点距离 , 长宽比。
其中α可以当做权重参数。
5.DIOU-NMS
之前使用NMS来决定是否删除一个框 , 现在改用DIOU-NMS。
不仅考虑了IoU的值,还考虑了两个Box中心点之间的距离。
其中M表示高置信度候选框 , Bi就是遍历各个框跟置信度高的重合情况。
八、Bag of specials(BOS)
1.增加稍许推断代价 , 但可以提高模型精度的方法。
2.网络细节部分加入了很多改进 , 引入了各种能让特征提取更好的方法。
3.注意力机制 , 网络细节设计 ,特征金字塔等 , 你能想到的全有。
4.读折一篇相当于把今年来部分优秀的论文又过了一遍。
九、SPPNet(Spatial Pyramid Pooling)
1.V3中为了更好满足不同输入大小 , 训练的时候要改变输入数据的大小。
2.SPP其实就是用最大池化来满足最终输入特征一致即可。
十、CSPNet( Cross Stage Partial Network)
1.每一个block按照特征图的channel维度拆分成两部分。
2.一份正常走网络 , 另一份直接concat到这个block的输出。
十一、CBAM
1.其实就是加入了注意力机制 , 已经很常见了在各种论文中。
2.V4中用的是SAM , 也就是空间的注意力机制。
3.不光NLP,语音识别领域在搞attention , CV中也一样。
十二、PAN(Path Aggregation Network)
1.引入了自底向上的路径 , 使得底层信息更容易传到顶部。
2.YOLOV4中并不是加法 , 而是拼接。
十三、Mish:(也许就是明日之星)
1.Relu有点太绝对了 , M ish更符合实际。
2.公式
f(α)=·tanh(ln(1+ew))
3.但是计算量确实增加了 ,效果会提升一点。
十四、整体网络架构