越大的数据集训练，网络泛化能力越强

最新推荐文章于 2022-04-10 23:09:31 发布

Zaгathustra

最新推荐文章于 2022-04-10 23:09:31 发布

阅读量1.7k

点赞数

分类专栏：科研工作文章标签：算法

本文链接：https://blog.csdn.net/Stephanie2014/article/details/120001600

版权

科研工作专栏收录该内容

68 篇文章 15 订阅

订阅专栏

虽然这个直观很好理解，但我想找这个论点的论文支持，如果再能找张图就好了，下面是过程

首先是On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima这篇经典文章，里面的这张flat minima和sharp minima的图画得很漂亮，然而这篇文章跟batch size有关，跟数据集大小无关，是讲大batch size训练使得目标函数倾向于收敛到sharp minima，sharp minima导致了网络的泛化性能下降。而小的batchsize则倾向于收敛到一个flat minima，这个现象支持了大家普遍认为的一个观点：小的batchsize存在固有噪声，这些噪声影响了梯度的变化。

行吧，但我要找的不是这个，我是多么想用这张图啊

然后又找到了一篇

high-frequency component helps explain the generalization of convolutional neural networks

数据比模型更复杂

大意就是，在一个有限的数据集中，除了数据本身的内容和 label 的关联之外，还有一些数据内容和其中的高频噪音的关联。当训练一个模型的时候，如果我们没有指明模型应该学习数据想表达的内容还是这些高频信号，模型可能会无差别地学习数据本身的信号或者这些高频信号，而这将使得对模型泛化能力的评估出现各种难以解释的现象。而当我们理解了这种数据特征之后，诸如对抗攻击、Batch Normalization 的功效等泛化的多种神奇现象将迎刃而解。

模型并没有任何理由忽略高频信息，从而导致模型学到了高频和语义的混合信息。

一方面，这个特点有机会让我们创造出能够超越人类视觉系统的模型，在同分布的数据集上甚至可以达到比人类水平更高的准确率。另一方面，这样的模型，尽管在同分布数据集上效果很好，但在其他不同分布的相似数据集上效果可能参差不齐（高频信息很可能在每个分布上是不一致的）

就还是没找到，但是找到了模型泛化能力评估难以解释的一种解释

Zaгathustra

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
越大的数据集训练，网络泛化能力越强

虽然这个直观很好理解，但我想找这个论点的论文支持，如果再能找张图就好了，下面是过程首先是On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima这篇经典文章，里面的这张flat minima和sharp minima的图画得很漂亮，然而这篇文章跟batch size有关，跟数据集大小无关，是讲大batch size训练使得目标函数倾向于收敛到sharp minima，sharp minima导致了网络的泛
复制链接

扫一扫