2021-07-27 学习笔记——优化方法中的梯度方法

最新推荐文章于 2025-01-06 14:52:44 发布

HJ

最新推荐文章于 2025-01-06 14:52:44 发布

阅读量859

点赞数 1

原文链接：https://zhuanlan.zhihu.com/p/152307115；https://zhuanlan.zhihu.com/p/369961719

版权

本文解析了强凸性的定义及其在梯度下降算法中的作用。强调强凸性如何保证线性收敛速率，并通过对比一般凸函数解释其优势。此外，文章还提到了Polyak-Lojasiewicz（PL）不等式作为强凸性的另一种表述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强凸性是保证基于梯度下降方法的算法的线形收敛速率的条件之一。一个可微函数强凸的定义是：

强凸性并不要求函数处处可微(differentiable),当函数不光滑的时候，梯度即用次梯度(sub-gradient)代替。从表达式来看，强凸比一般的凸函数更严格在于其中的的二次项u/2∥y−x∥^2.因此可以将其表述为u-strong convex。
强凸的性质是很重要的。直观从一维函数来说，一般凸函数只要求函数曲线在其切线之上，至于“上”多少没有要求，也就意味着曲线可以无限“贴着”切线，只要保持在其上就行了。毫无疑问，在优化特别是梯度优化中，这种微弱的梯度变化很难实现快速优化，有可能在有限次数还达不到收敛。如果我们取一个接近最小值的解，这也很难。“非常”接近只是一个定性理解，在这种情况下会出现最优解很近似但是决策变量相差巨大的糟糕情况。这时候，多加一个二次项的，保证有一个二次下界，那么不会出现“贴着”切线的情况，优化也变得更加简单。有的情况下，没有强凸的条件，可以人为加上一个二次项，以获得强凸特性。
某些情况也会表示函数是强凸性质的，其中一条被称为 Polyak-Lojasiewicz（PL）不等式。

原文： https://www.cnblogs.com/sybear/p/10850057.html
2. 梯度方法是优化方法中最基本的迭代方法，它只用到了梯度信息，属于一阶方法，许多其他的一阶方法都算是梯度方法的改进，都是在梯度方向上加上别的信息，比如共轭梯度，动量方法，Nesterov加速。
在这里插入图片描述
3. 一些定义：

还有很多，不粘贴了，原文：https://zhuanlan.zhihu.com/p/152307115

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。