【ML&DL】【skimming】Global Optimality in Neural Network Training

补了一下2017年的CVPR,Global Optimality in Neural Network Training[1]

论文一览:

痛点

深度学习取得了很大的成功,但是对其成功原因的数学解释却还是一个难点。很大一个原因是对深度网络的参数学习是一个非凸的过程。而优化算法有陷入非global minima的可能。凸优化问题的局部极小值也是全局极小值,因此学习问题的凸公式通常更可取,因为它们有助于分析学习算法的性质。

传统的学习算法如线性回归,SVM的凸优化可以理解为如下:

其中l为损失函数,Y为真实label,Φ(X,S)为输出的预测,X为需要学习的模型参数,S为模型输入。而Θ(x)为正则化方程。凸优化需要这里的损失函数和正则化方程在X上是凸的。

然而实际上有许多学习算法,尤其是那些试图直接从数据中学习特征的适当表示的算法,比如PCB,张量分解,也包括Deep learning,需要解决的是非凸的优化问题。

如下图

Φ是自定义的凸破坏映射,比如深度网络中的多层Linear和Non-Linear层结构。

当前应对这种非凸问题的方法,包括(但不限于)交替最小化,梯度下降,随机梯度下降,块坐标下降,反向传播和拟牛顿法等。这些方法能够带我们收敛到模型的临界点集。这些临界点包含了global minima,local minima,saddle point和saddle plateaus,如图下:

实验观察的经验表明,当网络规模足够大且使用ReLU非线性时,所有局部最小值可能是全局的,但目前尚无严格的理论为这些实验观察到的现象提供精确的数学解释。而本文则证明了这一点,文章展示了当网络足够大,且Φ和Θ是相同度数的正齐次函数的总和,任何局部最小值(使其某些项为零)也是全局最小值。任何局部最小值是非凸因式分解问题的全局最小值,并且如果非凸因式分解问题是通过足够大的因数完成的,那么从任何可行的初始化中,总有可能使用纯局部下降算法找到全局最小化器。我们所熟知的ReLU和maxpooling是正齐次的,而sigmoid则不是,这可以解释为什么ReLU与maxpooling一起使用是带来的增益。

另外文章还指出,平衡网络映射和正则化函数之间的正齐次性程度对于防止现代神经网络体系结构的损失表面中出现非最优的局部最小值至关重要,这为网络体系结构和正则化器的设计提供了指导。

参考文献

[1] Haeffele B D, Vidal R. Global optimality in neural network training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7331-7339.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锥栗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值