越大的数据集训练,网络泛化能力越强

虽然这个直观很好理解,但我想找这个论点的论文支持,如果再能找张图就好了,下面是过程

首先是On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima这篇经典文章,里面的这张flat minima和sharp minima的图画得很漂亮,然而这篇文章跟batch size有关,跟数据集大小无关,是讲大batch size训练使得目标函数倾向于收敛到sharp minima,sharp minima导致了网络的泛化性能下降。而小的batchsize则倾向于收敛到一个flat minima,这个现象支持了大家普遍认为的一个观点:小的batchsize存在固有噪声,这些噪声影响了梯度的变化。

行吧,但我要找的不是这个,我是多么想用这张图啊

 然后又找到了一篇

high-frequency component helps explain the generalization of convolutional neural networks

数据比模型更复杂

大意就是,在一个有限的数据集中,除了数据本身的内容和 label 的关联之外,还有一些数据内容和其中的高频噪音的关联。当训练一个模型的时候,如果我们没有指明模型应该学习数据想表达的内容还是这些高频信号,模型可能会无差别地学习数据本身的信号或者这些高频信号,而这将使得对模型泛化能力的评估出现各种难以解释的现象。而当我们理解了这种数据特征之后,诸如对抗攻击、Batch Normalization 的功效等泛化的多种神奇现象将迎刃而解。

模型并没有任何理由忽略高频信息,从而导致模型学到了高频和语义的混合信息。

一方面,这个特点有机会让我们创造出能够超越人类视觉系统的模型,在同分布的数据集上甚至可以达到比人类水平更高的准确率。另一方面,这样的模型,尽管在同分布数据集上效果很好,但在其他不同分布的相似数据集上效果可能参差不齐(高频信息很可能在每个分布上是不一致的)

就还是没找到,但是找到了模型泛化能力评估难以解释的一种解释

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值