Mixup:Beyond Empirical Risk Minimization

最新推荐文章于 2022-06-30 10:13:43 发布

abrams90

最新推荐文章于 2022-06-30 10:13:43 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习深度学习读书笔记文章标签： mixup tricks label smoothing GANs

本文链接：https://blog.csdn.net/abrams90/article/details/89480810

版权

本文提出了一种名为Mixup的学习原则，通过特征与标签的线性融合来改善深度神经网络的训练。Mixup不仅在图像分类（ImageNet, CIFAR-10, CIFAR-100）上提升了SOTA模型的表现，还在语音识别、对抗样本鲁棒性、数据表处理和GAN训练稳定性等方面展现出优势。它简化了数据增强过程，降低了对训练数据的过度拟合，增加了模型对未知数据的泛化能力。" 105731046,6680626,AirTest自动化测试框架连接教程,"['软件测试', '移动开发', '自动化测试', 'Android开发', 'iOS开发']

摘要由CSDN通过智能技术生成

Abstract

大规模神经网络功能很强大，但是显现出了不如预期的一些表现，例如对攻击样本的记忆力与敏感度。本文中，我们提出了一种缓解issues的学习原则称为mixup。总的来说，mixup通过对样本对及标签进行凸融合来训练深度神经网络。这样使得神经网络在训练任务调整成为它最擅长的简单线性学习。我们在ImageNet-2012，CIFAR-10，CIFAR-100，Google commads与UCI数据集上的实验显示mixup可以普遍改进SOTA神经网络结构的效果。我们还发现，mixup减少了对奇异数据的记忆，增加了对抗样本的鲁棒性，在GAN训练的时候提示了训练的稳定性。

Introduction

大型深度神经网络使得例如CV、语音识别、强化学习这些领域取得突破。在最成功的应用中，神经网络往往有两个共同点。首先，他们训练的目的是为了最小化训练集中的错误率，这种训练策略也称为经验风险最小化（Empirical Risk Minimization,ERM）原则。第二，随着训练样本数的增加SOTA神经网络的参数量线性增长。例如，Springberg提出的网络使用5*104样本数的CIFAR-10数据集，参数量为106，而Simonyan与Zisserman的网络使用106ImageNet-2012数据集，参数量为108，Chelba的网络使用109样本的1Billion Word数据集使用了2*1010参数。

可以发现典型的学习理论告诉我们只要神经网络的训练样本不再增加，ERM是可以确保收敛的。这里，学习机器的大小是有他的参数量进行度量的，或者由VC-complexity来度量相对复杂度。正如当前研究所显示的，这样的矛盾挑战了ERM在我们当前神经网络模型训练的适用性。换句话说，ERM使得大规模神经网络记住（而不是泛化）这些训练数据即使存在强约束或者在分类问题中标签是随机分配的。也就是说，基于ERM训练的神经网络当使用不在训练集分布中的样本进行评估的时候效果会剧烈波动，这也被称为对抗样本。这也就证明了ERM在测试样本分布于训练样本分布哪怕有一些不一致时不能解决或者提供足够的泛化性。然而，除了ERM还有什么选择？

在与训练样本不一样却相似的样本集上处理样本的方式称为data augmentation，总结成邻域风险最小化（Vicinal Risk Minimizaiton，VRM）。VRM中，需要人类的知识来描述训练数据中每个示例周围的邻域。然后，从训练实例的邻域分布中提取额外的虚拟实例，扩大训练分布的支持。举个例子，当进行图像分类的时候，通常将一个样本的领域描述成一系列水平映射、轻微旋转与些许缩放。虽然数据扩充最终使得泛化能力改进(Simard et al.，1998)，但该过程依赖于数据集，因此需要使用专业知识。此外，数据扩充假定邻近类中的样本共享同一个类，并且不为不同类的样本之间的邻近关系建模。

贡献。受这些问题的启发，我们引入了一个简单的、与数据无关的数据增强方法，称为mixup（第二章）。简而言之，mixup构建了虚拟训练样本

是随机从训练数据集中抽取的两个样本，而且。因此，mixup结合了特征向量线性插值扩展了训练分布的先验知识，会导致相关目标线性插值。mixup可以在几行代码中实现，并引入最小的计算开销。

尽管mixup看起来简单，但是在CIFAR-10，CIFAR-100，ImageNet2012图像分类数据集上都取得了SOTA的成绩（3.1节与3.2节）。此外，当从错误的标签学习时(第3.4节)，或者面对相反的例子时(第3.5节)，mixup增强了神经网络的鲁棒性。最后，mixup改进了语音(3.3节)和表格(3.6节)数据的泛化性，可以用来稳定GANs的训练(3.7节)。用于重现我们在CIFAR-10上实验的源码可以在以下位置获取：https://github.com/facebookresearch/mixup-cifar10。

为了了解各种设计选择在mixup中的影响，我们进行了一套完整的消融研究实验(第3.8节)。结果表明，mixup的性能明显优于以前工作中的相关方法，并且每种设计选择都有助于最终的性能。最后，我们探讨了与先前工作的联系(第4节)，并提出了一些讨论要点(第5节)。