如何理解深度学习中的局部最优

最新推荐文章于 2024-06-26 14:21:05 发布

Xurui_Luo

最新推荐文章于 2024-06-26 14:21:05 发布

阅读量3k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xurui_Luo/article/details/116034576

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

错觉

深度神经网络“容易收敛到局部最优”，很可能是一种想象，实际情况是，我们可能从来没有找到过“局部最优”，更别说全局最优了。
很多人都有一种看法，就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下，优化问题最直观的困难就是有很多局部极值，如：
人们直观的想象，高维的时候这样的局部极值会更多，指数级的增加，于是优化到全局最优就更难了。然而单变量到多变量一个重要差异是，单变量的时候，Hessian 矩阵只有一个特征值，于是无论这个特征值的符号正负，一个临界点都是局部极值。但是在多变量的时候，Hessian 有多个不同的特征值，这时候各个特征值就可能会有更复杂的分布，如有正有负的不定型和有多个退化特征值（零特征值）的半定型。在后两种情况下，是很难找到局部极值的，更别说全局最优了。

真相

神经网络的训练的困难主要是鞍点的问题。在实际中，我们很可能也从来没有真的遇到过局部极值。
Bengio 组这篇文章 Eigenvalues of the Hessian in Deep Learning（https://arxiv.org/abs/1611.07476）里面的实验研究给出以下的结论：
- Training stops at a point that has a small gradient. The norm of the gradient is not zero, therefore it does not, technically speaking, converge to a critical point.
- There are still negative eigenvalues even when they are small in magnitude.
另一方面，一个好消息是，即使有局部极值，具有较差的 loss 的局部极值的吸引域也是很小的.Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes （https://arxiv.org/abs/1706.10239）
所以，很可能我们实际上是在“什么也没找到”的情况下就停止了训练，然后拿到测试集上试试，“咦，效果还不错”。
补充说明，这些都是实验研究结果。理论方面，各种假设下，深度神经网络的 Landscape 的鞍点数目指数增加，而具有较差 loss 的局部极值非常少。

海森矩阵与特征值

很好的一篇参考

求一阶导，意义不用多说，共有n个
$f^{\prime}(x)=\left[\frac{\delta f}{\delta x_{1}}, \frac{\delta f}{\delta x_{2}}, \cdots, \frac{\delta f}{\delta x_{n}}\right]$
求二阶导得到了一个矩阵(n x n)。这是因为我们就想看「每个一阶导」（共n个）是如何受其它变量（n个）影响的，因此会有(n x n)个量。然后故意把它写成了海森矩阵的形式。如下：
$H=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$
用处：海森矩阵相当于二阶导，可用于判断函数在某个点 $\textbf{x}=(x_1, x_2, ..., x_n)$ 变化率的变化率，即函数在某个点的凸性
1. $H > 0$ ，那么对于一个二次函数，它下严格凸，像碗， $f^{'} (x) = 0$ 的点有全局极小值
2. $H > = 0$ ，函数下凸， $f^{'} (x) = 0$ 的点有局部极小值
3. $H < 0$ ，那么对于一个二次函数，它上严格凸，像倒碗， $f^{'} (x) = 0$ 的点有全局极大值
4. $H < = 0$ ，函数上凸， $f^{'} (x) = 0$ 的点有局部极大值
5. $H$ 有正有负，鞍点， $f^{'} (x) = 0$ 的点，既是极小值也是极大值

参考-二次型

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。