近端梯度下降(proximal gradident descent)

weixin_40248634

已于 2022-09-17 11:35:46 修改

阅读量579

点赞数

分类专栏：凸优化文章标签：机器学习算法

于 2022-09-17 01:23:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40248634/article/details/126900079

版权

凸优化专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一般而言，如果目标函数是凸的并且可微，那么使用梯度下降总是可以求出。而当有部分为凸且不可微时，这个时候就要用这个
近端梯度下降算法进行优化了。

在这里插入图片描述
也就是使用下面的PGD 就可以解决这类优化问题

其中 $prox_{th}(w)$ 为proximal operator, 这个是定义，为啥是这样可以参考https://cswhjiang.github.io/page7/。

具体而言就是在函数h 上找一点 $z^*$ , 使得 $w$ 到这个 $z^*$ 的距离最小， $z^*$ 可以称为 $w$ 在 $h$ 上的投影，下面是例子
在这里插入图片描述
其中的 $S_{\lambda t}$ 为软阈值函数。需要通过h 计算出来的。

举个例子，1-norm为不可微凸函数， t 是一个新增参数，表示近端梯度下降的步长 (step size); $\lambda$ 为正则项的参数
在这里插入图片描述
（可看推导https://angms.science/doc/CVX/ISTA0.pdf）

很好的讲解， https://zhuanlan.zhihu.com/p/82622940

weixin_40248634

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
近端梯度下降(proximal gradident descent)

一般而言，如果目标函数是凸的并且可微，那么使用梯度下降总是可以求出。举个例子，1-norm的S为， t 是一个新增参数，表示近端梯度下降的步长 (step size);为proximal operator, 这个是定义，好像也不需要知道为啥这样是有效的。（可看推导https://angms.science/doc/CVX/ISTA0.pdf）很好的讲解， https://zhuanlan.zhihu.com/p/82622940。具体而言就会将不可微的h(x)转化为另一个优化问题，使用的就是。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。