原文地址:https://arxiv.org/abs/2107.08430
github地址:https://github.com/Megvii-BaseDetection/YOLOX
1.主要模块
(1)CSPDarknet架构
Focus:[B, C, W, H] -> [B, 4C, W/2, H/2],与swim transformer中一样
CSPLayer:增强CNN学习能力,移除计算瓶颈,降低显存使用
(2)PAFPN结构
高层向低层融合后,低层再向高层融合
(3)Decoupled head结构
分类与回归分开预测,提高收敛速度
网络结构以github地址中的yolox.py绘制,图中以3×1280×1280大小的输入为例,CSPLayer中的n控制残差模块的个数,浅蓝色的CSPLayer中没有残差连接,浅紫色的CSPLayer中才有残差连接,此外橙色的ConvBNSiLU中的卷积可选择替换为DW卷积。
2.YOLOX中的改进
(1)Decoupled head结构
(2)数据增强
Mosaic+Mixup,在最后15个epoch关闭数据增强,无需ImageNet预训练
(3)Anchor-free方式
(4)Multi positive
将中心3×3区域分配为正样本
(5)SimOTA标签分配
(6)End-to-end YOLO可选模块