- 强凸性是保证基于梯度下降方法的算法的线形收敛速率的条件之一。一个可微函数强凸的定义是:
强凸性并不要求函数处处可微(differentiable),当函数不光滑的时候,梯度即用次梯度(sub-gradient)代替。从表达式来看,强凸比一般的凸函数更严格在于其中的的二次项u/2∥y−x∥^2.因此可以将其表述为u-strong convex。
强凸的性质是很重要的。直观从一维函数来说,一般凸函数只要求函数曲线在其切线之上,至于“上”多少没有要求,也就意味着曲线可以无限“贴着”切线,只要保持在其上就行了。毫无疑问,在优化特别是梯度优化中,这种微弱的梯度变化很难实现快速优化,有可能在有限次数还达不到收敛。如果我们取一个接近最小值的解,这也很难。“非常”接近只是一个定性理解,在这种情况下会出现最优解很近似但是决策变量相差巨大的糟糕情况。这时候,多加一个二次项的,保证有一个二次下界,那么不会出现“贴着”切线的情况,优化也变得更加简单。有的情况下,没有强凸的条件,可以人为加上一个二次项,以获得强凸特性。
某些情况也会表示函数是强凸性质的,其中一条被称为 Polyak-Lojasiewicz(PL)不等式。
原文: https://www.cnblogs.com/sybear/p/10850057.html
2. 梯度方法是优化方法中最基本的迭代方法,它只用到了梯度信息,属于一阶方法,许多其他的一阶方法都算是梯度方法的改进,都是在梯度方向上加上别的信息,比如共轭梯度,动量方法,Nesterov加速。
3. 一些定义:
还有很多,不粘贴了,原文:https://zhuanlan.zhihu.com/p/152307115