近端梯度法（proximal gradient method）

最新推荐文章于 2024-08-03 21:32:38 发布

Lily+U

最新推荐文章于 2024-08-03 21:32:38 发布

阅读量2.3k

点赞数 1

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012550992/article/details/104297145

版权

模型

$min\;g(x)+h(x)$

g(x) 凸且光滑，即可微， h(x) 凸且非光滑，即不可微，因此不能使用梯度下降法，因为 h(x) 在某点梯度会不存在，比如 h(x)=|x| .

近端梯度法常用于解上述优化问题.

近端梯度法

1、因为 g(x) 可微，因此将它在 $x^{k}$ 处Taylor展开：

$g(x)=g(x^{k})+\bigtriangledown g(x^{k})(x-x^{k})+\frac{L}{2}\|x-x^{k}\|^{2}$

拆开整理可得：

$g(x)=\frac{L}{2}\|x-(x^{k}-\frac{1}{L}\bigtriangledown g(x^{k})\|^{2}+\phi(x^{k})$

要求 $min\;g(x)$ ，则令 $x^{k+1}=x^{k}-\frac{1}{L}\bigtriangledown g(x^{k})$ 迭代即可得

2、实际问题是要求 $min\;g(x)+h(x)$ ，将 g(x) 在 $x^{k}$ 处Taylor展开：

则问题变为： $\begin{align} min\;\frac{L}{2}\|x-(x^{k}-\frac{1}{L}\bigtriangledown g(x^{k})\|^{2}+h(x) \end{align}$

下面介绍近端映射函数（投影算子proximity operator）：

$min_{x}\; \frac{1}{2}\|x-z\|^{2}+\lambda h(x)$

问题为：给定一个变量，找到上面优化问题的极小点 $x^{*}$ , h(x) 为不可微的凸函数

$prox_{\lambda h(x)}(z)=argmin_{x}\; \frac{1}{2}\|x-z\|^{2}+\lambda h(x)$

其中， $prox_{\lambda h(x)}(z)$ 表示关于变量和函数 h(x) 的近端算子,求得的能让 h(x) 达到最小，且与不可微点无限接近.

因此，（1）中的 $x^{k}-\frac{1}{L}\bigtriangledown g(x^{k})$ 相当于上式中的变量，因此可以通过下列近端算子求解:

$\begin{aligned} x^{k+1}&=prox_{\lambda h(x)}(x^{k}-\frac{1}{L}\bigtriangledown g(x^{k}))\\ &=argmin_{x}\; \frac{1}{2}\|x-(x^{k}-\frac{1}{L}\bigtriangledown g(x^{k}))\|^{2}+\lambda h(x) \end{aligned}$

解释：对于当前点 $x^{k}$ ，沿着可微函数 g(x) 的负梯度方向，以一定步长下降迭代得到 $z^{k}=x^{k}-\frac{1}{L}\bigtriangledown g(x^{k})$ ，然后使用投影算子求出新的更新值 $x^{k+1}$ .

对于Lasso而言，proximal方法相当把原问题拆解成了两个子问题，首先更新平滑部分的参数（L1以外的部分），拿着更新好的结果，跑一遍proximal operator（soft threshold函数）让它也尽量更接近满足L1的条件，处理过后的才是新的参数.

参考资料：

https://zhuanlan.zhihu.com/p/103161094

https://zhuanlan.zhihu.com/p/82622940

https://blog.csdn.net/qq_38290475/article/details/81052206

http://www.bubuko.com/infodetail-2895666.html

https://blog.csdn.net/Chaolei3/article/details/81320940

https://blog.csdn.net/zbwgycm/article/details/83060251

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
近端梯度法（proximal gradient method）

模型凸且光滑，即可微，凸且非光滑，即不可微，因此不能使用梯度下降法，因为在某点梯度会不存在，比如.近端梯度法常用于解上述优化问题.近端梯度法1、因为可微，因此将它在处Taylor展开：拆开整理可得：要求，则令迭代即可得2、实际问题是要求，将在处Taylor展开：则问题变为：下面介绍近端映射函数：,问题为：给定一个变量，找到上面优化问题的极小...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。