对Deep Double Decent: Where Bigger Models And More Data Hurt的理解

作者提出几个现象,(1)有些时候更大的模型表现的更好有些时候更小的模型更好。(2)有些时候训练时间更长更好有些时候early stop更好。作者的经过多种实验发现许多深度学习设置有两种不同的机制。在参数化不足的情况下,与样本数量相比,模型的复杂性较小,作为模型复杂性的函数的测试误差遵循经典偏差/方差权衡所预测的类u行为。然而,一旦模型的复杂性足够大,可以进行插值,即达到(接近)零训练误差,那么增加复杂性只会降低测试误差,遵循“模型越大越好”的现代直觉。
作者为了解释这个现象提出了一个叫做EMC的复杂度概念,意为训练过程能达到接近零训练误差的最大样本数。决定EMC大小的因素有很多,如数据的分布,模型的结构,训练的过程特别的如训练的时间。
基于上述概念作者提出假设:
Under-paremeterized机制:如果EMC(T)远小于n,任何对T的扰动,增加T的有效复杂度将降低测试误差。

Over-parameterized机制:如果EMC(T)足够大于n,任何对T的扰动,增加其有效复杂度将降低测试误差。
Critically parameterized机制:如果EMCD≈n,则增加T的有效复杂度的一个摄动可能会降低或增加测试误差。
本文的主要结果是一个实验验证这个假设的各种设置,考虑几个数据集的自然选择,架构,和优化算法, 通过改变模型参数的数量,训练的时间,数量的标签的噪音分布,训练样本的数量改变了“插值阈值”。
(在第6节中,作者研究一个固定的大型模型架构在训练过程中的测试误差。在类似的设置下,当模型的训练时间刚好达到≈0的训练误差时,相应的测试性能峰值。一个大型模型的测试误差首先减小(在训练开始时),然后增加(在关键区域附近),然后再次减小(在训练结束时),也就是说,训练时间长可以纠正过拟合。)
(在第7节中,我们研究了固定模型和训练过程的测试误差,对于不同数量的训练样本。与我们的广义双下降假说一致,我们观察到不同的测试行为在“临界状态”,当样本数量接近模型可以拟合的最大值。这通常表现为一个很长的高原区域,在这个区域中,在完成训练时,需要更多的数据(这是cnnson CIFAR-10的例子)。此外,我们还展示了一些设置(IWSLT ’ 14 en-de上的变压器),这些设置显示为峰值——对于固定的体系结构和训练过程,更多的数据实际上是有害的。)
(作者对Model-Wise Double Decent 的一个解释:充分理解深层神经网络模型双下降背后的机制仍然是一个重要的开放问题。然而,即使对于线性模型,也会出现模型双下降的模拟。我们相信类似的机制可能在深层神经网络中起作用。非正式地,我们的直觉是,对于模型大小在插值阈值,只有一个模型有效地拟合训练数据,而且这个插值模型对噪声非常敏感(暴力记忆的成分较高?),也就是说,由于模型只能勉强拟合训练数据,迫使它拟合即使是轻微的噪声或错误指定的标签也会破坏其全局结构,并导致较高的测试误差。然而,对于过度参数化的模型,有许多插值模型适合训练集,SGD能够找到一个“记忆”(或“吸收”)噪声的同时仍然在分布上表现良好的模型。)
在本文基础上对神经网络训练的一些建议:
模型方面:
(1)可以尝试较小模型,其EMC较小,逐渐增大模型,至训练误差开始增大
(2)一开始就选择较大模型,如果模型大小不能增加,可以增加训练的时间。
(3)清洗数据
(4)可以尝试减少数据量
把握住模型训练的3和1:

3个重点:参数量,epoch,样本量。
1个信念:没有过拟合,只是没有妥当地训练好而已。在对抗过拟合之前应该先控制样本噪声和数据增强。随后慎重地行事。
参考文献
参考知乎
原文地址

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值