Proximal Gradient Descent for L1 Regularization

最新推荐文章于 2023-04-21 08:16:42 发布

机器学习与遥感图像智能信息处理实验室

最新推荐文章于 2023-04-21 08:16:42 发布

阅读量5.5k

点赞数 1

分类专栏：稀疏表示

稀疏表示专栏收录该内容

1 篇文章 0 订阅

订阅专栏

[本文链接：http://www.cnblogs.com/breezedeus/p/3426757.html，转载请注明出处]

假设我们要求解以下的最小化问题：

min x f (x)

$\min\limits_x f(x)$
如果

f(x) $f(x)$ 可导，那么一个简单的方法是使用 Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解：

x k + 1 : = x k - α \nabla f (x k) 。

$x_{k+1}:=x_k - \alpha \nabla f(x_k)。$
对GD的一种解释是

xk $x_k$ 沿着当前目标函数的下降方向走一小段，只要步子足够小，总能保证得到

f(xk+1)≤f(xk)。 $f(x_{k+1})\leq f(x_k)。$

如果 $\nabla f(x)$ 满足L-Lipschitz，即：

| | \nabla f (x') - \nabla f (x) | | \leq L | | x' - x | | ，

$||\nabla f(x^\prime)-\nabla f(x)|| \leq L||x^\prime - x||，$
那么我们可以在点

xk $x_k$ 附近把

f(x) $f(x)$ 近似为：

f^(x, x k) ≐ f (x k) + ⟨ \nabla f (x k), x - x k ⟩ + L 2 | | x - x k | | 2 。

$\hat f(x, x_k) \doteq f(x_k) + \langle \nabla f(x_k), x - x_k\rangle + \frac {L}{2}||x-x_k||^2 。$
把上面式子中各项重新排列下，可以得到：

f^(x, x k) ≐ f (x k) + ⟨ \nabla f (x k), x - x k ⟩ + L 2 | | x - x k | | 2 = L 2 | | x - (x k - 1 L \nabla f (x k)) | | 22 + φ (x k) 。

$\hat f(x, x_k) \doteq f(x_k) + \langle \nabla f(x_k), x - x_k\rangle + \frac {L}{2}||x-x_k||^2 \\ = \frac{L}{2}||x-(x_k-\frac{1}{L}\nabla f(x_k))||_2^2 + \varphi (x_k)。$
这里

φ(xk) $\varphi(x_k)$ 不依赖于x，因此可以忽略。

显然， $\hat f(x,x_k)$ 的最小值在

x k + 1 = x k - 1 L \nabla f (x k)

$x_{k+1}=x_k - \frac{1}{L}\nabla f(x_k)$
获得。所以，从这个角度看的话， GD的每次迭代是在最小化原目标函数的一个二次近似函数。

二次近似函数

在很多最小化问题中，我们往往会加入非光滑的惩罚项 $g(x)$ ，比如常见的 $L_1$ 惩罚： $g(x)=||x||_1$ 。这个时候，GD就不好直接推广了。但上面的二次近似思想却可以推广到这种情况：

x k + 1 = arg min x F^(x, x k) = arg min x L 2 | | x - (x k - 1 L \nabla f (x k)) | | 22 + g (x)

$\begin{split} x_{k+1}&=\arg\min\limits_x\hat F(x,x_k)\\ &=\arg\min\limits_x \frac{L}{2}||x-(x_k - \frac{1}{L}\nabla f(x_k))||^2_2 + g(x) \end{split}$
这就是所谓的 Proximal Gradient Descent （PGD）算法。只要给定

g(x) $g(x)$ 时下面的最小化问题能容易地求解，PGD就能高效的使用：

p r o x u g (z) = arg min x 1 2 | | x - z | | 22 + μ g (x) 。

$prox_{ug}(z) = \arg \min\limits_x \frac{1}{2}||x-z||^2_2 + \mu g(x)。$
比如

g(x)=||x||1 $g(x)=||x||_1$ 时，

proxug(z) $prox_{ug}(z)$ 能够通过所谓的 soft thresholding获得：

p r o x u g (z) = s i g n (z) max {| z | - μ, 0} 。

$prox_{ug}(z)=sign(z)\max\{|z|-\mu, 0\}。$

[Reference]

John Wright. Lecture III: Algorithms, 2013.

机器学习与遥感图像智能信息处理实验室

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。