文章目录 1. mixup 2. 标签平滑化 3. 学习率预热和衰减 3.1 学习率预热 3.2 学习率衰减(余弦衰减) 4. 同步批量归一化 5. 部分结果 1. mixup 简单的说,根据两个已有的训练数据,构造出新的训练数据。假设两个训练数据分别为 i 和 j i和j i和j, 参 数 λ ∈ [ 0 , 1