mixup: BEYOND EMPIRICAL RISK MINIMIZATION

原文:https://arxiv.org/pdf/1710.09412.pdf 

代码:https://github.com/hongyi-zhang/mixup

摘要:深度神经网络非常强大,但也有一些问题,如强制记忆和对对抗样本的敏感性;本文提出的mixup就是缓解这些问题的一种学习策略。本质上,mixup用样本对和标签对的凸组合(on convex combinations of pairs of examples and their labels)训练网络。这样,mixup将神经网络正规化以支持训练样本间的简单线性行为。在ImageNet-2012, CIFAR-10,CIFAR-100, Google commands and UCI 这些数据集上的实验显示,mixup提高了当前最先进的神经网络结构的泛化性能。此外,我们还发现mixup能够减少网络对错误样本的记忆力,增加对对抗样本的鲁棒性,能够稳定生成对抗网络(GAN)的训练过程。

1.背景(介绍):

神经网络在计算机视觉、语音识别、强化学习等领域取得突破性进展。在大多数成功的应用中,神经网络有两点共性

       1.最小化在训练数据的平均误差,这种学习规则也被称为经验风险最小化(Empirical Risk Minimization,ERM);

       2.这些当前最先进的神经网络的规模大小与训练样本的数量呈线性关系。

显著地,学习理论的经典结果告诉我们,只要学习机器(如神经网络)的大小不随训练数据数量的增加而增加,那么ERM的收敛性可以得到保证。其中,学习机器的大小是根据其参数数量,或相关地,根据其VC复杂度来衡量的。正如在最近的研究中所强调的那样,这一矛盾挑战了ERM对训练我们当前神经网络模型的适应性。一方面,ERM允许大型神经网络记忆训练数据(而不是从中泛化),即使是在强正则化,或是标签是随机分配的分类问题中。另一方面,在对训练分布之外的样本(也被称之为对抗样本)进行评估时,用ERM训练的神经网络会彻底地改变其预测结果。这个证据表示,当测试分布与训练数据略有不同时,ERM便无法对其进行解释或为其提供泛化。那么,ERM的替代方案是什么呢?  

在选择类似但不相同的样本上到训练集上进行训练的方法称为数据增强(data augmentation),而后由邻域风险最小化原则(Vicinal Risk Minimization,VRM)形式化。在VRM中,需要用人类知识来描述训练数据中每个样本周围的邻域区域。然后,可以从训练样本的附近分布中提取附加的虚拟样本,以扩大训练分布的支持。例如,当进行图像分类时,通常将一个图像的邻域定义为它地水平反射、轻微旋转和轻微缩放的集合。虽然一直以来,数据增强都会促使改进泛化能力,但是该过程是依赖于数据集的,因此需要使用专家知识。除此之外,数据扩充假设邻域中的样本共享相同的类,并且不对不同类的样本之间的邻域关系进行建模。

贡献

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值