【ML&DL】【skimming】The Loss Surfaces of Multilayer Networks

锥栗

已于 2023-02-27 18:45:00 修改

阅读量451

点赞数

分类专栏： ML&DL 文章标签：机器学习深度学习人工智能

于 2020-04-11 16:59:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fisherish/article/details/105455073

版权

ML&DL 专栏收录该内容

13 篇文章

订阅专栏

补了一下Yann LeCun的经典工作The Loss Surfaces of Multilayer Networks[1]

论文一览：
在这里插入图片描述

痛点

文章假设并且陆续证明了这样一些事情：

1）对于大网络(large size network)而言，绝大多数局部极小值在test上的表现是差不多的，且这些local minima跟global minima的表现也是差不多的。

2）小网络找到差的局部极小值(鞍点或比较大的局部极小值)的概率比较大，且这个概率随着网络模型的增大而减小。即大网络更容易收敛到模型的最佳performance附近，小网络更难，所以网络越大越容易train。

3）想要在training set中找到global minima不仅意义不大，而且容易导致过拟合。局部极小值跟全局最小值的表现是差不多的，找局部极小值就可以了。

实验

其中一个实验如下图右，不同颜色代表neuron数量不同的大小不同的网络，当网络越大时，loss将分布在比较小的数值附近，而网络越小，loss将分布在比较大的数值附近。

文章在网络不同大小时候计算了train set loss和test set loss的皮尔逊相关系数如下：

可以看到随着网络size增大，train set和test set的loss相关性越来越弱了。作者认为即就泛化性能而言，这表明尝试找到绝对可能的最小值意义不大。我认为意思是网络越大，泛化能力要更强，且没有必要找全局最小值而导致泛化能力较差（过拟合）

在这里也可以看到相关性：

test losses的分布随着模型size的变化如下

test loss的均值和方差随着模型size的变化如下：

参考文献

[1] Choromanska A, Henaff M, Mathieu M, et al. The loss surfaces of multilayer networks[C]//Artificial intelligence and statistics. 2015: 192-204.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

锥栗 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。