近端梯度下降算法(Proximal Gradient Algorithm)

最新推荐文章于 2025-04-24 10:41:09 发布

原创最新推荐文章于 2025-04-24 10:41:09 发布

· 2.1w 阅读

168 ·

版权

文章标签：

#机器学习 #优化算法 #压缩感知 #近端梯度下降

机器学习同时被 2 个专栏收录

5 篇文章

订阅专栏

压缩感知

3 篇文章

订阅专栏

摘要：介绍梯度下降算法，以及在 $f (x)$ 的梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz条件下的梯度下降算法的意义，并由此展开的非光滑约束下的近端梯度下降算法，求解 $min_x f^s(x)+f^n(x)$ 问题.

1. 梯度下降

考虑 $min_x f(x)$ ，其中 $f (x)$ 为可微凸函数，且其梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz条件.
最简单的优化方法为梯度下降法(Gradient descent)

$x^{(k+1)}=x^{(k)}-\eta \bigtriangledown f(x^{(k)})$

将 $f (x)$ 在 $x=x^{(k+1)}$ 的值，在 $x^{(k)}$ 处做Taylor展开，得到

$\begin{aligned} f(x^{(k+1)})&= f(x^{(k)})+\bigtriangledown f(x^{(k)})(x^{(k+1)}-x^{(k)})\\ &=f(x^{(k)})-\eta \left(\bigtriangledown f(x^{(k)})\right)^2\\ &\leq f(x^{(k)}) \end{aligned}$

步长参数 $0<\eta<1$ ，则每一次迭代总能保证 $f(x^{(k+1)})\leq f(x^{(k)})$ .

2. 梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz条件下的梯度下降

首先给出L-Lipschitz定义：

设函数 $f (x)$ 在有限区间 $[a, b]$ 上满足如下条件：

当 $x\in[a,b]$ 时， $f(x)\in[a,b]$ ，即 $a\leq f(x)\leq b$ ；
对任意的 $x_1，x_2\in[a,b]$ ， $|f(x_1)-f(x_2)|\leq L|x_1-x_2|$ 恒成立；

则称 $f (x)$ 在 $[a, b]$ 上满足L-Lipschitz条件， $L$ 称为Lipschitz常数.

可以发现，L-Lipschitz连续比一致连续更强，要求函数值在有限区间的变化幅度受到限制.

进一步的，如果函数 $f (x)$ 的梯度 $\bigtriangledown f(x)$ 满足L-Lipschitz连续，则其在给定点 $x^{(k)}$ 可以展开成如下二阶近似形式

$\hat{f}(x;x^{(k)})\doteq f(x^{(k)})+<\bigtriangledown f(x^{(k)},x-x^{(k)})>+\frac{L}{2}||x-x^{(k)}||^2$

展开，并将与 $x$ 无关的项记为 $\phi(x^{(k)})$ ，则可以进一步化简为

$\hat{f}(x;x^{(k)})=\frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+\phi(x^{(k)})$

由图可知

$\hat{f}(x;x^{(k)})\geq f(x)$

当且仅当 $x=x^{(k)}$ 时，取等号. $\hat{f}(x;x^{(k)})$ 实际上为原目标函数的二次上界.

令 $x^{(k+1)}=\arg\min_x \hat{f}(x;x^{(k)})$ ，则可以得到

$x^{(k+1)}=x^{(k)}-\frac{1}{L}\bigtriangledown f(x^{(k)})$

因此，在二阶近似的条件下，梯度下降可以理解为：

每一次迭代都在最小化目标函数在上一次迭代点处的二次上界.

收敛速度为 $O(\frac{1}{k})$ .

3. 引入非光滑约束后的近端梯度下降算法

考虑 $min_x f^s(x)+f^n(x)$ ，其中 $f^s(x)$ 为可微凸函数，且其梯度 $\bigtriangledown f^s(x)$ 满足L-Lipschitz条件， $f^n(x)$ 为非光滑函数.
对光滑部分做如上二阶近似，得到

$\hat{f}(x;x^{(k)})=\frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f^s(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+\phi(x^{(k)})+f^n(x)$

令 $x^{(k+1)}=\arg\min_x \hat{f}(x;x^{(k)})$ ，则可以得到近端梯度下降的更新公式

$x^{(k+1)}=\arg\min_x \frac{L}{2}\bigg\lvert\bigg\lvert x-\left(x^{(k)}-\frac{1}{L}\bigtriangledown f^s(x^{(k)})\right)\bigg\rvert\bigg\rvert^2+f^n(x)$

而该更新公式可以通过如下近端问题高效求解：

$prox_{\mu f^n(x)}(z)=\arg\min_x \frac{1}{2} ||x-z||^2+\mu f^n(x)$

即最小化 $\mu f^n(x)$ 加上一个独立的二次问题. 此时的收敛速率仍为 $O(\frac{1}{k})$ .

4. 三个近端梯度下降计算非光滑约束优化的例子

例1：

凸稀疏罚函数 $f^n(x)=||x||_1$ ，此时得到的近端优化问题为
$\arg\min_x\frac{1}{2} ||x-z||^2+\mu ||x||_1$
求解得到 $z$ 的软阈值函数
$prox_{\mu f^n(x)}(z)=S_\mu(z)=sign(z)\max\left\{|z|-\mu,0\right\}$
此时的该操作符能够将 $z$ 的所有元素向 $0$ 压缩，而且计算仅需线性时间.