补了一下Yann LeCun的经典工作The Loss Surfaces of Multilayer Networks[1]
论文一览:
痛点
文章假设并且陆续证明了这样一些事情:
1)对于大网络(large size network)而言,绝大多数局部极小值在test上的表现是差不多的,且这些local minima跟global minima的表现也是差不多的。
2)小网络找到差的局部极小值(鞍点或比较大的局部极小值)的概率比较大,且这个概率随着网络模型的增大而减小。即大网络更容易收敛到模型的最佳performance附近,小网络更难,所以网络越大越容易train。
3)想要在training set中找到global minima不仅意义不大,而且容易导致过拟合。局部极小值跟全局最小值的表现是差不多的,找局部极小值就可以了。
实验
其中一个实验如下图右,不同颜色代表neuron数量不同的大小不同的网络,当网络越大时,loss将分布在比较小的数值附近,而网络越小,loss将分布在比较大的数值附近。
文章在网络不同大小时候计算了train set loss和test set loss的皮尔逊相关系数如下:
可以看到随着网络size增大,train set和test set的loss相关性越来越弱了。 作者认为即就泛化性能而言,这表明尝试找到绝对可能的最小值意义不大。我认为意思是网络越大,泛化能力要更强,且没有必要找全局最小值而导致泛化能力较差(过拟合)
在这里也可以看到相关性:
test losses的分布随着模型size的变化如下
test loss的均值和方差随着模型size的变化如下:
参考文献
[1] Choromanska A, Henaff M, Mathieu M, et al. The loss surfaces of multilayer networks[C]//Artificial intelligence and statistics. 2015: 192-204.