mixup: BEYOND EMPIRICAL RISK MINIMIZATION
作者Hongyi Zhang,本科北大,发这篇文章的时候是MIT的博士五年级学生。这篇文章是和FAIR的人一起合作的。
Introduction
摘要中,本文提到了mixup方法可以让神经网络倾向于训练成简单的线性关系。从而降低模型的过拟合现象。
实际上,现在的神经网络规模通常是和数据集规模成正比的。训练神经网络时应用的主要指导思想是经验风险最小化(ERM)。但是ERM收敛的重要保证就是模型规模不会随着数据规模的增加而增加。实际上,越大的数据集使用越大的网络,只能说明网络“记住了”这些图片,即使在随机给定的标签上深度网络都会有很好的的效果。因此,这样的网络对于不在数据分布内的样本(adversarial examples )效果非常差。
从ERM到mixup
机器学习的目的是为了使期望风险最小化
R(f)=∫ℓ(f(x),y)dP(x,y) R ( f ) = ∫ ℓ ( f ( x ) , y ) d P ( x , y )
其中, ℓ ℓ 表示损失函数。但是一般而言 dP(x,y) d P ( x , y ) 是未知的。因此我们会退而求其次,最小化经验风险(ERM):
Pδ(x,y)=1n∑i=1nδ(x=xi,y=yi) P δ ( x , y ) = 1 n ∑ i = 1 n δ ( x = x i , y = y i )
这里的 δ δ 为Dirac mass,(里面为11则为1,否则为0)。事实上就是每个样本赋予相同的权重 1n 1 n 。
得到了估计的分布后,可以用来估算期望风险了。
<