文章目录
一、Mosaic数据增强基础理论与YOLOv11实现
1.1 Mosaic增强的核心概念与数学原理
Mosaic数据增强是一种将多张训练图像拼接成单一复合图像的技术,最初由Ultralytics团队在YOLOv4中引入并成为YOLO系列算法的标志性预处理方法。其核心思想是通过空间拼接和上下文混合来模拟复杂场景,从而增强模型对目标尺度变化、位置分布及背景干扰的鲁棒性。
从数学形式化角度,Mosaic可描述为一个四元组变换函数:
M(I₁,I₂,I₃,I₄) → I_mosaic
其中Iₖ∈ℝ{H×W×C}代表输入图像,I_mosaic∈ℝ{2H×2W×C}为输出 mosaic图像。具体实现包含以下关键步骤:
- 图像选择与缩放:随机选取四张训练图像,每张图像按随机比例缩放至(0.5H,1.5W)范围内
- 网格划分:将目标画布划分为2×2网格,每格尺寸为(H/2,W/2)
- 随机偏移:为增加多样性,各子图像在对应网格内进行随机位置偏移(Δx,Δy)∈[0,H/4]×[0,W/4]
- 混合填充:对超出边界的区域采用反射填充(reflection padding)处理
在YOLOv1