论文笔记:mixup: BEYOND EMPIRICAL RISK MINIMIZATION

Abstract

本质上,mixup利用训练样本和他们标签的凸组合训练神经网络

可以对神经网络进行正则化,使其在训练样本之间倾向于简单的线性行为

mixup减少了损坏标签的记忆,提高了对抗示例的鲁棒性,并稳定了GAN的训练。

Introduction

神经网络的两条共性:

  • 学习规则是经验风险最小化(ERM)准则,也就是最小化训练数据的平均错误
  • SOTA神经网络的规模大小和训练样本数量成线性比例

Motivation:

  1. 1971年提出的学习理论中的一个经典结果是:只要学习模型的大小不随着训练数据量的增加而增加,ERM的收敛性会得到保证。这样的contradiction使得ERM训练神经网络的合适性被质疑。
  2. 对抗样本的存在,表明ERM不能解释或者提供在与训练数据分布仅仅有一点区别的测试分布上的泛化性能。

数据增广被认为是一种近邻风险最小化(VRM)准则【在后续会具体涉及介绍】,不过这样的正则手段是依赖于数据集的,因此需要专家知识;另外只是假设近邻样本是相同类别,而并未刻画不同类别的近邻关系(对应到一般数据增广标签不改变)。

Contribution:

通过合并现有的知识(特征向量的线性插值应导致相关目标的线性插值)来扩展训练分布。

实际就是制造虚拟样本和标签

From ERM to mixup

Theory

  • empirical risk:

R δ ( f ) = ∫ ℓ ( f ( x ) , y ) d P δ ( x , y ) = 1 n ∑ i = 1 n ℓ ( f ( x i ) , y i ) R_{\delta}(f)=\int \ell(f(x), y) \mathrm{d} P_{\delta}(x, y)=\frac{1}{n} \sum_{i=1}^{n} \ell\left(f\left(x_{i}\right), y_{i}\right) Rδ(f)=(f(x),y)dPδ(x,y)=n1i=1n(f(xi),yi)

  • vicinal risk:

P ν ( x , y ) = 1 n ∑ i = 1 n ν ( x ~ , y ~ ∣ x i , y i ) R ν ( f ) = 1 m ∑ i = 1 n ℓ ( f ( x ~ i ) , y ~ i ) P_\nu(x,y)=\frac 1 n \sum\limits_{i=1}^n \nu(\tilde x,\tilde y|x_i,y_i) \\ R_\nu(f)=\frac 1 m \sum\limits_{i=1}^n\ell(f(\tilde x_i),\tilde y_i) Pν(<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值