【ML&DL】【skimming】On the saddle point problem for non-convex optimization

补一下经典,2014年Yoshua Bengio的On the saddle point problem for non-convex
optimization。

论文一览:

痛点

深度学习一个主要问题就是要在一个连续高维的空间中去最小化非凸的损失函数。

人们使用的方法经常是梯度下降或者拟牛顿法,这些方法找到全局最小值的主要困难源自局部极小值的扩散,其误差远高于全局最小值。但是本文认为,真正需要担心的是鞍点,而不是局部极小值。这些鞍点附近都是高loss的水平,它们的存在会大大影响model的学习,让人误以为是local minima。

这篇文章告诉我们,N个变量的高维空间上的典型随机误差函数可能对于非常小的N具有许多局部最小值。但是随着维数N的增加,相对于全局最小值而言,局部极小值具有较高的误差的概率随着N呈指数减小。

通常,设误差函数f,其中θ是N维连续变量。根据定义,临界点是令f(θ)梯度消失的点θ。 所有临界点f(θ)还可以表示为其函数附近的曲率,可以Hessian matrix的特征值来描述。Hessian matrix是对称矩阵,且特征值为实数。如下图(来源百度)

结论:

1)若Hessian matrix特征值全为正,即Hessian matrix正定,则临界点为local minima

2)若Hessian matrix特征值全为负,即Hessian matrix为负定,则临界点为local maxima

3)若Hessian matrix特征值有正有负,则临界点为saddle point(鞍点),如下图1的(b)

值得注意的是图一展示了多种不同类型的鞍点,(a)为二维的鞍点,正好在0点,(b)为一个三维鞍点的马鞍面,可以往高处也可以往低处。©也可以往高处或往低处,其鞍点正好在0点。而(d)结构像酒瓶底,其鞍点只往低处,而且最低点的local minima构成了一个圆圈。

如上图,左图展示了临界点的索引和loss的关系请注意,每个点的灰度级由测量Hessian matrix的梯度范数给出。右图是熟悉的Hessian matrix特征值与loss的分布关系,可以看到蓝色绿色都是loss比较高的时候,这时特征值分布跨了正负两半轴,因此蓝色绿色model的临界点为saddle point,所以loss比较高。而红色model特征值分布在正半轴,临界点为local minima,所以loss比较低。

本文给我们提供了有价值的鞍点和局部极小值分析的切入点。指导性的结论请见Yann LeCun的作The Loss Surfaces of Multilayer Networks。

参考文献

[1] Pascanu R, Dauphin Y N, Ganguli S, et al. On the saddle point problem for non-convex optimization[J]. arXiv preprint arXiv:1405.4604, 2014.

[2] Choromanska A, Henaff M, Mathieu M, et al. The loss surfaces of multilayer networks[C]//Artificial intelligence and statistics. 2015: 192-204.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锥栗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值