mixup: BEYOND EMPIRICAL RISK MINIMIZATION_beyond empirical risk minimization pdf-CSDN博客

本文链接：https://blog.csdn.net/ellin_young/article/details/81142168

mixup是一种缓解深度神经网络强制记忆和对抗样本敏感性问题的学习策略，通过训练样本对和标签对的线性组合进行网络正规化。实验证明，mixup在多个数据集上提高了模型的泛化性能，增强了对错误样本的记忆抑制和对抗样本的鲁棒性，且能稳定GAN训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：https://arxiv.org/pdf/1710.09412.pdf

代码：https://github.com/hongyi-zhang/mixup

摘要：深度神经网络非常强大，但也有一些问题，如强制记忆和对对抗样本的敏感性；本文提出的mixup就是缓解这些问题的一种学习策略。本质上，mixup用样本对和标签对的凸组合(on convex combinations of pairs of examples and their labels)训练网络。这样，mixup将神经网络正规化以支持训练样本间的简单线性行为。在ImageNet-2012, CIFAR-10,CIFAR-100, Google commands and UCI 这些数据集上的实验显示，mixup提高了当前最先进的神经网络结构的泛化性能。此外，我们还发现mixup能够减少网络对错误样本的记忆力，增加对对抗样本的鲁棒性，能够稳定生成对抗网络（GAN）的训练过程。

1.背景（介绍）：

神经网络在计算机视觉、语音识别、强化学习等领域取得突破性进展。在大多数成功的应用中，神经网络有两点共性：

1.最小化在训练数据的平均误差，这种学习规则也被称为经验风险最小化（Empirical Risk Minimization，ERM）；

2.这些当前最先进的神经网络的规模大小与训练样本的数量呈线性关系。

显著地，学习理论的经典结果告诉我们，只要学习机器（如神经网络）的大小不随训练数据数量的增加而增加，那么ERM的收敛性可以得到保证。其中，学习机器的大小是根据其参数数量，或相关地，根据其VC复杂度来衡量的。正如在最近的研究中所强调的那样，这一矛盾挑战了ERM对训练我们当前神经网络模型的适应性。一方面，ERM允许大型神经网络记忆训练数据（而不是从中泛化），即使是在强正则化，或是标签是随机分配的分类问题中。另一方面，在对训练分布之外的样本（也被称之为对抗样本）进行评估时，用ERM训练的神经网络会彻底地改变其预测结果。这个证据表示，当测试分布与训练数据略有不同时，ERM便无法对其进行解释或为其提供泛化。那么，ERM的替代方案是什么呢？

在选择类似但不相同的样本上到训练集上进行训练的方法称为数据增强（data augmentation），而后由邻域风险最小化原则（Vicinal Risk Minimization，VRM）形式化。在VRM中，需要用人类知识来描述训练数据中每个样本周围的邻域区域。然后，可以从训练样本的附近分布中提取附加的虚拟样本，以扩大训练分布的支持。例如，当进行图像分类时，通常将一个图像的邻域定义为它地水平反射、轻微旋转和轻微缩放的集合。虽然一直以来，数据增强都会促使改进泛化能力，但是该过程是依赖于数据集的，因此需要使用专家知识。除此之外，数据扩充假设邻域中的样本共享相同的类，并且不对不同类的样本之间的邻域关系进行建模。