文章目录
Abstract
本质上,mixup利用训练样本和他们标签的凸组合训练神经网络
可以对神经网络进行正则化,使其在训练样本之间倾向于简单的线性行为
mixup减少了损坏标签的记忆,提高了对抗示例的鲁棒性,并稳定了GAN的训练。
Introduction
神经网络的两条共性:
- 学习规则是经验风险最小化(ERM)准则,也就是最小化训练数据的平均错误
- SOTA神经网络的规模大小和训练样本数量成线性比例
Motivation:
- 1971年提出的学习理论中的一个经典结果是:只要学习模型的大小不随着训练数据量的增加而增加,ERM的收敛性会得到保证。这样的contradiction使得ERM训练神经网络的合适性被质疑。
- 对抗样本的存在,表明ERM不能解释或者提供在与训练数据分布仅仅有一点区别的测试分布上的泛化性能。
数据增广被认为是一种近邻风险最小化(VRM)准则【在后续会具体涉及介绍】,不过这样的正则手段是依赖于数据集的,因此需要专家知识;另外只是假设近邻样本是相同类别,而并未刻画不同类别的近邻关系(对应到一般数据增广标签不改变)。
Contribution:
通过合并现有的知识(特征向量的线性插值应导致相关目标的线性插值)来扩展训练分布。
实际就是制造虚拟样本和标签
From ERM to mixup
Theory
- empirical risk:
R δ ( f ) = ∫ ℓ ( f ( x ) , y ) d P δ ( x , y ) = 1 n ∑ i = 1 n ℓ ( f ( x i ) , y i ) R_{\delta}(f)=\int \ell(f(x), y) \mathrm{d} P_{\delta}(x, y)=\frac{1}{n} \sum_{i=1}^{n} \ell\left(f\left(x_{i}\right), y_{i}\right) Rδ(f)=∫ℓ(f(x),y)dPδ(x,y)=n1i=1∑nℓ(f(xi),yi)
- vicinal risk:
P ν ( x , y ) = 1 n ∑ i = 1 n ν ( x ~ , y ~ ∣ x i , y i ) R ν ( f ) = 1 m ∑ i = 1 n ℓ ( f ( x ~ i ) , y ~ i ) P_\nu(x,y)=\frac 1 n \sum\limits_{i=1}^n \nu(\tilde x,\tilde y|x_i,y_i) \\ R_\nu(f)=\frac 1 m \sum\limits_{i=1}^n\ell(f(\tilde x_i),\tilde y_i) Pν(<