【文献阅读】understanding deep learning requires rethinking generalization 理解深度学习需要重新思考一下“泛化”

最新推荐文章于 2023-05-19 13:22:36 发布

pearl30

最新推荐文章于 2023-05-19 13:22:36 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习模型选择文章标签：深度学习模型选择

本文链接：https://blog.csdn.net/pearl30/article/details/74894113

Google Brain团队的论文探讨了深度学习的泛化能力，即使在参数远超训练样本的情况下，深度神经网络仍能有效拟合。尽管理论分析表明模型能够完全拟合任意标签的训练数据，但不同模型的泛化能力差异显著。正则化方法如数据增强、权重衰减和dropout对提高泛化能力的影响并不关键。论文提出，深度学习的泛化能力现象需要更深入的研究和理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章来自Google brain团队，2016年10月在arxiv.org上发表第一版本，百度学术显示，截止2017年7月，引用量为28。论文第二版投稿ICLR（学习表示国际会议），并赢得了best paper award. [论文全文], [slides]

背景：机器学习，模型选择

当训练数据少，模型假设的参数多时，可能可以有多个模型（不同的参数取值）都能很好的拟合训练数据。我们说此时假设空间太大，模型复杂度太高。在实际应用中的监督式模型中，我们的最终目的往往不是学习模型使得对训练数据拟合好（即在训练集上的准确性高，训练误差小），而是对新的，未标注的数据能很好的拟合（即在测试集上的准确性高，测试误差小），此时称模型的泛化能力好。

Q：模型选择/模型泛化能力只针对监督式学习？

传统的机器学习方法中，通常通过对最优解的范数进行限制，相当于限制了模型空间，进而提高泛化能力。概率解释，相当于给模型参数某种先验假设。

有Rademacher复杂度、VC维、fat-shattering维等一些方法来度量模型的复杂度。

算法层面用一致稳定性描述模型对数据的变化的敏感度。

现实世界往往是简单的，太复杂的模型往往泛化能力不好（当然其实模型复杂与否，也是一定程度上相对于泛化能力来说的），多用剃须刀。

Q：最小化参数的范数-而不是最大化或者其他什么限制，相对于是通往简单吗？
当最小化到0的时候稀疏了参数更少了，确实是更简单了。也可以把参数限制到某个常数比如1，也相当于砍掉了这个参数吧。(这和限制到常数0是等价的吧)

深度神经网络的泛化能力

作者在图片分类等任务上做了一些实验发现，当深度神经网络（卷积网络）的参数个数多于训练样本的时候，无论训练的标签是什么样的（随机的），模型都能很好的拟合训练数据（这个深度神经网络的模型假设空间真是太大了）。并且理论分析了有限样本上两层神经网络模型表达能力，即从d维实数数据空间，选择任意大小为n的样本集合，对其做任意实数的标签，激活函数ReLU，有2n+d个权重（模型参数）的两层神经网络模型都能完全拟合训练数据。

然而这些模型的泛化能力是不一样的，测试误差不是都好的，该怎么选择模型呢？考虑使用机器学习方法中的正则项方法。在深度神经网络上的显示的正则方法常见的有：