【ML&DL】【skimming】The Loss Surfaces of Multilayer Networks

补了一下Yann LeCun的经典工作The Loss Surfaces of Multilayer Networks[1]

论文一览:
在这里插入图片描述

痛点

文章假设并且陆续证明了这样一些事情:

1)对于大网络(large size network)而言,绝大多数局部极小值在test上的表现是差不多的,且这些local minima跟global minima的表现也是差不多的。

2)小网络找到差的局部极小值(鞍点或比较大的局部极小值)的概率比较大,且这个概率随着网络模型的增大而减小。即大网络更容易收敛到模型的最佳performance附近,小网络更难,所以网络越大越容易train。

3)想要在training set中找到global minima不仅意义不大,而且容易导致过拟合。局部极小值跟全局最小值的表现是差不多的,找局部极小值就可以了。

实验

其中一个实验如下图右,不同颜色代表neuron数量不同的大小不同的网络,当网络越大时,loss将分布在比较小的数值附近,而网络越小,loss将分布在比较大的数值附近。

文章在网络不同大小时候计算了train set loss和test set loss的皮尔逊相关系数如下:

可以看到随着网络size增大,train set和test set的loss相关性越来越弱了。 作者认为即就泛化性能而言,这表明尝试找到绝对可能的最小值意义不大。我认为意思是网络越大,泛化能力要更强,且没有必要找全局最小值而导致泛化能力较差(过拟合)

在这里也可以看到相关性:

test losses的分布随着模型size的变化如下

test loss的均值和方差随着模型size的变化如下:

参考文献

[1] Choromanska A, Henaff M, Mathieu M, et al. The loss surfaces of multilayer networks[C]//Artificial intelligence and statistics. 2015: 192-204.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锥栗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值