看了点鞍点相关的知识,做一下备录。
我们知道在,优化问题中,深度学习的优化问题中,经常存在鞍点,就是这一点的导数为0,从某些维度看是极小值,从另一些维度看是极大值,比如:
深度学习的寻优过程中,鞍点所造成的困难,远比局部最小值大的多,因为
1)在高维参数空间,鞍点存在较多
2)大量工作表面局部最优解,对于模型而言已经足够好。
此外,正是因为深度学习中鞍点的大量存在,传统的牛顿法不适合,来寻优,因为牛顿法是通过直接寻找梯度为0的点,来寻优的,那么极有可能陷入鞍点。
(ps: 也正因为如此,牛顿法在Hessian为正定的时候,比梯度下降速度快,因为牛顿法直接找梯度为0 的点,而梯度下降则是一次一次的寻找当前点的最优梯度)
那么如何逃离,跳出鞍点呢?
1)利用Hessian矩阵ÿ