带L1正则化项的近似梯度下降

最新推荐文章于 2022-12-04 10:01:55 发布

微丶念

最新推荐文章于 2022-12-04 10:01:55 发布

阅读量5.7k

点赞数

分类专栏：深度强化学习tips

深度强化学习tips 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

摘录自：http://breezedeus.github.io/2013/11/16/breezedeus-proximal-gd.html

Proximal Gradient Descent for L1 Regularization

Nov 16, 2013

假设我们要求解以下的最小化问题：

min x f (x) 。

如果 f(x) 可导，那么一个简单的方法是使用Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解：

x k + 1 : = x k - α \nabla f (x k) 。

对GD的一种解释是 xk 沿着当前目标函数的下降方向走一小段，只要步子足够小，总能保证得到 f(xk+1)≤f(xk) 。

如果 ∇f(x) 满足L-Lipschitz条件，即：

∥ \nabla f (x') - \nabla f (x) ∥ \leq L ∥ x' - x ∥ ，

那么我们可以在点 xk 附近把 f(x) 近似为：

f^(x, x k) ≜ f (x k) + ⟨ \nabla f (x k), x - x k ⟩ + L 2 ∥ x - x k ∥ 22 。

把上面式子中各项重新排列下，可以得到：

f^(x, x k) ≜ f (x k) + ⟨ \nabla f (x k), x - x k ⟩ + L 2 ∥ x - x k ∥ 22 = L 2 ∥ x - (x k - 1 L \nabla f (x k)) ∥ 22 + φ (x k) 。

显然 f^(x,xk) 的最小值在

x k + 1 = x k - 1 L \nabla f (x k)

获得。所以，从这个角度上看的话，GD的每次迭代是在最小化原目标的一个二次近似函数。

Proximal GD 近似

在很多最小化问题中，我们往往会加入非光滑的惩罚项 g(x) ，比如常见的L1惩罚： g(x)=∥x∥1 。这个时候，GD就不好直接推广了。但上面的二次近似思想却可以推广到这种情况：

x k + 1 = arg min x F^(x, x k) = arg min x L 2 ∥ x - (x k - 1 L \nabla f (x k)) ∥ 22 + g (x) 。

这就是所谓的Proximal Gradient Descent(PGD)算法¹。只要给定 g(x) 时下面的最小化问题能容易地求解，PGD就能高效地使用：

prox μ g (z) = arg min x 1 2 ∥ x - z ∥ 22 + μ g (x) 。

比如 g(x)=∥x∥1 时， proxμg(z) 能够通过所谓的soft thresholding获得：

prox μ g (z) = sign (z) max {∣ z ∣ - μ, 0} 。

References

John Wright. Lecture III: Algorithms, 2013. ↩

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

微丶念 CSDN认证博客专家 CSDN认证企业博客

码龄11年

87: 原创

9万+: 周排名

214万+: 总排名

47万+: 访问

: 等级

4716: 积分

502: 粉丝

522: 获赞

282: 评论

1351: 收藏

私信

关注

热门文章

分类专栏

LeetCode：Actions are more important than words 12篇
OpenAI Baselines源码阅读 1篇
TensorFlow理解与应用 3篇
机器人学 1篇
小白的CV学习记录
你好，强化学习
Baselines源码阅读 1篇
深度强化学习tips 3篇
David Silver强化学习课程笔记 9篇
PRML读书笔记
RL读书笔记
《统计学习方法》速读 3篇
机器人学
ROS学习 5篇
论文阅读与实现 4篇
LeetCode 12篇
Python学习笔记 21篇
菜鸟教程：Python 100例实践
TensorFlow学习笔记 6篇
深入TensorFlow 3篇
TFLearn学习笔记 4篇
OpenAI Gym学习笔记 7篇
Git学习笔记 2篇
C++学习笔记 2篇
《Effective C++》每日一条 3篇
《鸟哥的私房菜》学习笔记 1篇
算法实现 1篇

最新评论

关于VC维的理解
const LA: https://blog.csdn.net/qq_26547843/article/details/106288464这个讲的很清楚
Gym小记（五）
qq_35845146: 看看我的赛道3117 最佳941分 GYM CARRACING 人工智能 Selfattention 谷歌大脑自注意力赛车赛道3117,best performen 941分,可视化,焦点,_哔哩哔哩_bilibili
David Silver强化学习课程笔记（七）
z樾: 梯度上升.
David Silver强化学习课程笔记（五）
z樾: 是不是可以理解为如果是一步的话无论是greedy还是€greedy 选什么行为At获得什么Rt+1都其实只是一个概率而已可以理解没有区别，当多步的时候考虑到后续如Rt+2其实是由行为At+1导致的再往前推就是由At导致这是一个序列可以理解为是服从某种分布的序列，此时就无法忽视重要性采样了博主看理解对不对呢
David Silver强化学习课程笔记（一）
z樾: 1.其实就是所提到的奖励有延迟，因为奖励是理解为环境给出的，所以Agent在t时刻接收到obs(t)和R（t)做出A(t)，环境接收到A（t)再做出反馈，很明显由A(t)所导致的R是下一时刻的。2.预测，就是说给你一个策略，估计该策略能够得到多少回报，控制就是说从策略中到找一个回到最多的策略，所以网格中才是给出箭头（policy)而不是数字

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。