(未完)论文笔记——理解深度学习需要重新思考泛化性(Understanding deep learning requires rethinking generalization)

论文——Understanding deep learning requires rethinking generalization

Understanding deep learning requires rethinking generalization (ICLR2017)

1. 介绍

作者在这篇文章展示了为什么传统的方法不能解释大型网络在实践中具有良好的泛化性能。

we show how these traditional approaches fail to explain why large neural networks generalize well in practice.

具体地说,作者的实验证明,用随机梯度方法训练的用于图像分类的最新卷积网络很容易适应训练数据的随机标记。这种现象在性质上不受显式正则化的影响,即使用完全非结构的随机噪声代替真实图像也会发生。
这段话的意思就是,当把一堆图像作为训练集,但是这些图像的标签是随机生成,即随机标注,当把这些训练数据传入网络中时,网络能够很容易地适应(学习),即使用完全随机噪声生成的图像也能很容易地适应(学习)。

同时,作者用一个理论结果证明上诉实验结果,并且这个理论结构表明,当神经网络的参数超过实际数据点的个数时,使用简单深度为2层的神经网络,就具有很好的有限样本的表达能力

We corroborate these experimental findings with a theoretical construction showing that simple depth two neural networks al- ready have perfect finite sample expressivity as soon as the number of parameters exceeds the number of data points as it usually does in practice

在这项工作中,作者对传统的泛化观点提出了质疑,因为它无法区分具有完全不同泛化性能的不同神经网络。

In this work, we problematize the traditional view of generalization by showing that it is incapable of distinguishing between different neural networks that have radically different generalization performance.

随机实验

作者实验方法的核心是著名的非参数统计检验的变体

At the heart of our methodology is a variant of the well-known randomiza- tion test from non-parametric statistics (Edgington & Onghena, 2007).

在第一组实验中,作者使用随机标签替换真实标签,得到中心结论可表述为:

深度神经网络能够很容易拟合随机标签
Deep neural networks easily fit random labels.

更准确得说,当使用真实数据进行完全随机标记训练时,神经网络的训练误差会收敛为0。

More precisely, when trained on a completely random labeling of the true data, neural networks achieve 0 training error.

显示正则化的作用

作者证明,显示形式的正则化,如:权重衰减、dropout和数据增强,都不能充分地解释神经网络的泛化误差,换句话说

显式正则化可以提高泛化性能,但对于控制泛化误差来说,显式正则化既不必要也不充分。
Explicit regularization may improve generalization performance, but is neither necessary nor by itselfsufficient for controlling generalization error.

与经典的凸经验风险最小化方法(需要显式正则化来去除不重要的解)相比,作者发现正则化在深度学习中起着完全不同的作用。正则化的作用似乎更多地是一个调整参数,通常有助于改善模型的最终测试误差但缺乏所有正则化并不一定意味着泛化误差大
如Krizhevsky等人(2012年)所述L2-正则化(权值衰减)有时甚至有助于优化,说明它在深度学习中的本质缺乏了解。

注:
Krizhevsky等人(2012年)的论文中讨论了深度卷积网络在大型分类数据集上的表现,其中有这么一段
We trained our models using stochastic gradient descent with a batch size of 128 examples, momentum of 0.9, and weight decay of 0.0005. We found that this small amount of weight decay was important for the model to learn. In other words, weight decay here is not merely a regularizer: it reduces the model’s training error.
他们发现这个少量的权重衰减对模型的学习很重要,它不仅仅是一个正则化:它减少了模型的训练误差。

有限样本的表达能力(Finite sample expressivity.):
作者用一个理论结构来补充他们的经验观察,表明一般大型神经网络可以表达训练数据的任何标记。
公式化的表达即:他们展示了一个简单的2层ReLU网络,使用 p = 2 n + d p=2n+d p=2n+d 个参数的网络能够学习任意标签,其中 n n n 为样本数量, d d d 为数据维度,
虽然深度2网络不可避免地具有较大的宽度,但也可以得到一个深度k网络,其中每层只有 O ( n / k ) O(n/k) O(n/k)。.

More formally, we exhibit a very simple two-layer ReLU network with p = 2n+d parameters that can express any labeling of any sample of size n in d dimensions.

Livni 等人(2014)之前的一个构造也获得了类似的结果,其参数更多,为 O ( d n ) O(dn) O(dn)

A previous construction due to Livni et al. (2014) achieved a similar result with far more parameters, namely, O ( d n ) O(dn) O(dn).

隐式正则化的作用

对于泛化性来讲,显示的正则化,Dropout和重量衰减,可能不是必要的,可以确定的是,不是所有的模型适合于训练数据的泛化。实际上,在神经网络中,我们几乎总是在我们的模型中使用随机梯度下降。对于线性模型,我们分析了SGD作为隐式正则化器的作用。对于线性模型,SGD总是收敛到一个范数很小的解。 因此,SGD算法本身就是隐式正则化的解决方案。作者在小数据集上证明了即使高斯核方法在没有正则化的情况下也有良好的泛化性。 虽然这并不能解释为什么某些结构比其他结构泛化好,但它确实表明,需要更多的研究来理解使用SGD训练的模型到底学到了哪些属性。

While explicit regularizers like dropout and weight-decay may not be essential for generalization, it is certainly the case that not all models that fit the training data well generalize well. Indeed, in neural networks, we almost always choose our model as the output of running stochastic gradient descent. Appealing to linear models, we analyze how SGD acts as an implicit regularizer. For linear models, SGD always converges to a solution with small norm. Hence, the algorithm itself is implicitly regularizing the solution. Indeed, we show on small data sets that even Gaussian kernel methods can generalize well with no regularization. Though this doesn’t explain why certain architectures generalize better than other architectures, it does suggest that more investigation is needed to understand exactly what the properties are inherited by models that were trained using SGD.

神经网络中的有效模型容量

作者的目标是理解前馈神经网络中的有效模型容量,向着这个目标,作者选择了一种受非参数随机化启发测试的方法。

Our goal is to understand the effective model capacity of feed-forward neural networks. Toward this goal, we choose a methodology inspired by non-parametric randomization tests.

作者选择同一个网络结构,
1、让它们在正确的数据上训练,
2、使用随机标签替换真实标签。
对于第二种情况,类别标签和数据不再有任何关联,因此学习是不可能的,直觉表面这种不可能会在训练时表现出来,如训练不收敛,或者速度大大减慢,
然而,多个标准结构(标准神经网络结构)基本不受标签转换的影响。

As a result, learning is impossible. Intuition suggests that this impossibility should manifest itself clearly during training, e.g., by training not converging or slowing down substantially. To our surprise, several properties of the training process for multiple standard achitectures is largely unaffected by this transformation of the labels.

这是一个概念上的挑战. 无论怎样,我们所期望的小泛化误差一定不是应用在随机标签上。

This poses a conceptual challenge. Whatever justification we had for expecting a small generalization error to begin with must no longer apply to the case of random labels.

在这里插入图片描述在CIFAR10上使用随机标签和随机像素。
(a) 显示各种实验设置的训练损失随训练步骤而衰减。
(b) 显示了不同标签损坏率下的相对收敛时间。
(c) 显示不同标签损坏下的测试错误(也是由于训练错误为0而产生的泛化错误)

为了进一步了解这一现象,作者进行了不同程度的随机化实验,探索了无标签噪声和完全损坏标签之间的连续性,如上图。

To gain further insight into this phenomenon, we experiment with different levels of randomization exploring the continuum between no label noise and completely corrupted labels.

作者对标签和输入图像进行了以下修改:
•真实标签:未经修改的原始数据集。
•部分损坏的标签:独立于概率p,每个图像的标签作为一个统一的随机类损坏。
•随机标签:所有标签均替换为随机标签。
•无序像素:选择像素的随机排列,然后对训练集和测试集中的所有图像应用相同的排列。
•随机像素:独立地对每个图像应用不同的随机排列。
•高斯分布:高斯分布(与原始图像数据集的均值和方差相匹配)用于为每个图像生成随机像素。

令人惊讶的是,超参数设置不变时,随机梯度下降与可以优化权重,以完美地适应随机标签,即使随机标签完全破坏了图像和标签之间的关系。
Surprisingly, stochastic gradient descent with unchanged hyperparameter settings can optimize the weights to fit to random labels perfectly, even though the random labels completely destroy the relationship between images and labels.

在这项工作中,作者提出了一个简单的实验框架来定义和理解机器学习模型的有效能力的概念。实验证明,几种成功的神经网络结构的有效容量足以破坏训练数据。因此,这些模型在原则上是足够丰富的记忆训练数据。这种情况对统计学习理论提出了概念上的挑战,因为传统的模型复杂性度量方法难以解释大型人工神经网络的泛化能力
我们认为,我们还没有发现一个精确的正式衡量标准,在这个标准下,这些庞大的模型是简单的。
作者从实验中得出的另一个看法是,优化在经验上仍然很容易,即使得到的模型不能推广。这表明,为什么优化在经验上是容易的,其原因一定与泛化的真正原因不同。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值