Mixup:Beyond Empirical Risk Minimization

 

Abstract

大规模神经网络功能很强大,但是显现出了不如预期的一些表现,例如对攻击样本的记忆力与敏感度。本文中,我们提出了一种缓解issues的学习原则称为mixup。总的来说,mixup通过对样本对及标签进行凸融合来训练深度神经网络。这样使得神经网络在训练任务调整成为它最擅长的简单线性学习。我们在ImageNet-2012,CIFAR-10,CIFAR-100,Google commads与UCI数据集上的实验显示mixup可以普遍改进SOTA神经网络结构的效果。我们还发现,mixup减少了对奇异数据的记忆,增加了对抗样本的鲁棒性,在GAN训练的时候提示了训练的稳定性。

Introduction

大型深度神经网络使得例如CV、语音识别、强化学习这些领域取得突破。在最成功的应用中,神经网络往往有两个共同点。首先,他们训练的目的是为了最小化训练集中的错误率,这种训练策略也称为经验风险最小化(Empirical Risk Minimization,ERM)原则。第二,随着训练样本数的增加SOTA神经网络的参数量线性增长。例如,Springberg提出的网络使用5*104样本数的CIFAR-10数据集,参数量为106,而Simonyan与Zisserman的网络使用106ImageNet-2012数据集,参数量为108,Chelba的网络使用109样本的1Billion Word数据集使用了2*1010参数。

可以发现典型的学习理论告诉我们只要神经网络的训练样本不再增加,ERM是可以确保收敛的。这里,学习机器的大小是有他的参数量进行度量的,或者由VC-complexity来度量相对复杂度。正如当前研究所显示的,这样的矛盾挑战了ERM在我们当前神经网络模型训练的适用性。换句话说,ERM使得大规模神经网络记住(而不是泛化)这些训练数据即使存在强约束或者在分类问题中标签是随机分配的。也就是说,基于ERM训练的神经网络当使用不在训练集分布中的样本进行评估的时候效果会剧烈波动,这也被称为对抗样本。这也就证明了ERM在测试样本分布于训练样本分布哪怕有一些不一致时不能解决或者提供足够的泛化性。然而,除了ERM还有什么选择?

在与训练样本不一样却相似的样本集上处理样本的方式称为data augmentation,总结成邻域风险最小化(Vicinal Risk Minimizaiton,VRM)。VRM中,需要人类的知识来描述训练数据中每个示例周围的邻域。然后,从训练实例的邻域分布中提取额外的虚拟实例,扩大训练分布的支持。举个例子,当进行图像分类的时候,通常将一个样本的领域描述成一系列水平映射、轻微旋转与些许缩放。虽然数据扩充最终使得泛化能力改进(Simard et al.,1998),但该过程依赖于数据集,因此需要使用专业知识。此外,数据扩充假定邻近类中的样本共享同一个类,并且不为不同类的样本之间的邻近关系建模。

贡献。受这些问题的启发,我们引入了一个简单的、与数据无关的数据增强方法,称为mixup(第二章)。简而言之,mixup构建了虚拟训练样本

是随机从训练数据集中抽取的两个样本,而且。因此,mixup结合了特征向量线性插值扩展了训练分布的先验知识,会导致相关目标线性插值。mixup可以在几行代码中实现,并引入最小的计算开销。

尽管mixup看起来简单,但是在CIFAR-10,CIFAR-100,ImageNet2012图像分类数据集上都取得了SOTA的成绩(3.1节与3.2节)。此外,当从错误的标签学习时(第3.4节),或者面对相反的例子时(第3.5节),mixup增强了神经网络的鲁棒性。最后,mixup改进了语音(3.3节)和表格(3.6节)数据的泛化性,可以用来稳定GANs的训练(3.7节)。用于重现我们在CIFAR-10上实验的源码可以在以下位置获取:https://github.com/facebookresearch/mixup-cifar10

为了了解各种设计选择在mixup中的影响,我们进行了一套完整的消融研究实验(第3.8节)。结果表明,mixup的性能明显优于以前工作中的相关方法,并且每种设计选择都有助于最终的性能。最后,我们探讨了与先前工作的联系(第4节),并提出了一些讨论要点(第5节)。

2、From Empirical Risk Minimization to Mixup。

在有监督学习中,我们对寻找一个函数来描述一个随机向量X与随机目标向量Y之间的关系感兴趣,他们的联合分布为。为了这个目的,我们定义一个loss函数来惩罚预测值f(x)与实际目标y之间的差异,例如。那么,我们在数据分布P上最小化loss函数l的平均值,也称为期望风险:

不幸的是,在大多数实际场景中的分布是未知的。相反,我们通常可以达到一系列训练数据,这里。通过训练集D,我们可以通过经验分布来估计 P

这里

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值