现有方法通常只在单一预定义任务的基准数据集上进行受限测试,如故障预测或异常检测。这些方法在涉及数据损坏、标签噪声或长尾类别分布等更复杂的真实世界情况中的有效性仍然较少被探索。作者提出了一个统一的模型,旨在有效地解决所有这些挑战。
对于正则化,使用RegMixup正则化[59]、正确排序损失(CRL)[54]和余弦相似分类器(CSC)[23,33]等技术,这些技术有助于增加具有挑战性样本的熵。在优化领域,结合了FMFP[81]推荐的锐度感知最小化(SAM)[19]和随机加权平均(SWA)[35],以确保模型能够收敛到更平坦的最小值。这些不同技术的协同整合最终形成了新方法,其命名为SURE。该方法利用每个单独组件的优势,产生更健壮和可靠的模型。
数据集包括各种数据集(如CIFAR10[40]、CIFAR-100[40]、Tiny-ImageNet[41])和各种模型架构(即ResNet[28]、VGG[64]、DenseNet[34]、WideResNet[76]和DeiT[70])上都很明显。
现实世界的挑战包括CIFAR10-C[30]中的数据损坏,Animal-10N[65]和Food-101N[42]中的标签噪声,以及CIFARLT[12]中的偏类分布
Method
xi是输入图像,yi为其真值标签,N为样本数。
SURE中增加难样本熵的方法由三个部分组成:RegMixup正则化[59],表示为Lmix,正确排序损失Lcrl,通过将置信度与正确的有序排序对齐来正则化类概率,以及余弦相似分类器(CSC)。这些方法被共同用于优化目标,其中包括特定于任务的损失,例如分类的交叉熵损失,表示为Lce,除了RegMixup正则化Lmix之外,还有基于训练期间收集的历史正确信息的置信度感知正则化Lcrl。执行平坦最小值的方法在于在优化过程中利用锐度感知最小化(SAM)[19]和随机加权平均(SWA)[35]。
Total Loss
其中λmix和λcrl为超参数,用于平衡各损耗分量对总损耗的贡献。
RegMixup regularization
Lmix Mixup[77]是一种广泛应用于图像分类的数据增强方法。给定两个输入-目标对(xi, yi)和(xj, yj),我们通过线性插值得到一个增广样本(~ xi, ~ yi):
m为混合系数,服从Beta分布:
RegMixup正则化Lmix包括在增广样本(~xi,~yi)上额外拟合模型。
与RegMixup[59]类似,我们将Lmix作为附加的正则化器加入到原始的交叉熵损失中
Correctness ranking loss Lcrl
Cosine Similarity Classifier (CSC)
用余弦分类器替换最后一个线性层。对于图像xi,我们将xi属于k类的分类逻辑表示为s k i
Flat minima-enforced optimization(平面最小强制优化)
联合使用锐度感知最小化(SAM)[19]和随机加权平均(SWA)[35]来增强平坦最小值。
锐度感知最小化(Sharpness-Aware Minimization, SAM)
SAM[8,19]是一种优化方法,它通过寻找位于平坦邻域的参数来增强模型泛化,从而使DNN具有一致的小损失。
随机加权平均(SWA)
通过在训练过程中平均模型权重来提高dnn的泛化能力。