稀疏编码的经典解法——ISTA算法的推导

最新推荐文章于 2024-01-09 01:17:51 发布

Mr_Lowbee

最新推荐文章于 2024-01-09 01:17:51 发布

阅读量6.7k

点赞数 10

分类专栏： sparse

本文链接：https://blog.csdn.net/mr_lowbee/article/details/104402873

版权

sparse 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

$\qquad$ 现有一个求稀疏编码的问题：
$\min \parallel z \parallel_0 \quad s.t. \ x=Dz$
$\qquad$ 其中 $D\in \mathbb{R}^{n\times m}$ , $z\in \mathbb{R}^{m}$ 是 $x\in \mathbb{R}^{n}$ 的 sparse code.
$\qquad$ 解决上式是一个复杂度随 m 以指数级增长的组合问题，最常见的解决方法是将 $l_0$ 范数替换为 $l_1$ 范数.即目标函数变为：
$arg\min_{D,z} \frac{1}{2}\parallel x-Dz \parallel_2^2 + \lambda \parallel z \parallel_1$
$\qquad$ 假设 D 已给定，即：
$arg\min_{z} \frac{1}{2}\parallel x-Dz \parallel_2^2 + \lambda \parallel z \parallel_1$

$\qquad$ 对于凸二范数 $f_1=\ \frac{1}{2}\parallel x-Dz \parallel_2^2$ ，叫做reconstruction 项，它的函数是这样的
在这里插入图片描述
$\qquad$ 对于凸一范数 $f_2=\lambda\parallel z \parallel_1$ ，叫做sparsity penalty 项，它的函数是这样的,故其导数为符号函数。

$\qquad$ 现在我们来求解这个目标函数，即得到使 $f$ 值最小时的 $z$ .将函数变形为：
$\begin{aligned} f&=f_1+f_2\\ &=\ \frac{1}{2}\parallel x-Dz \parallel_2^2 + \lambda \parallel z \parallel_1\\ &=\frac{1}{2}(x-Dz)^T(x-Dz)+\lambda\parallel z \parallel_1\\ \end{aligned}$
$\qquad$ 故可以梯度下降法来求 z. 对 $f$ 求 $z$ 的偏导：
$\begin{aligned} \frac{\partial f}{\partial z}&=\frac{\partial f_1}{\partial z}+\frac{\partial f_2}{\partial z}\\ &=D^T(Dz-x)+\lambda sign(z) \end{aligned}$
$\qquad$ 对于reconstruction 项
$z^{k+1}=z^k-\alpha D^T(Dz-x)$
$\qquad$ 对于penalty 项 $z^{k+1}=z^k-\alpha\lambda sign(z)$
$\qquad$ 问题来了,符号函数 $s i g n (z)$ 在 0 处是不可微的
$\qquad$ 解决办法：如果 $l_1 norm$ 的梯度因为 $z$ 而改变符号，则将其设为 0 ，即
$if:\quad sign(z)\neq sign(z-\alpha \lambda sign(z)) \quad then \quad z=0\\ else: \quad z=z-\alpha \lambda sign(z)$

$\qquad$ 上面的两项的处理过程概括起来就是 ISTA算法

1.初始化 $z^{(0)}=0$
2.当 $z^{(k)}$ 未收敛

$z^{k}=z^{k}-\alpha D^T(Dz-x)$
$z^{k+1}=shrink(z^k,\alpha \lambda)$

$\qquad shrink:$ 用来查看函数值是否：不变 / 变0
$\qquad$ 总结上述步骤：
$\begin{aligned} z^{k+1}&=S_{\alpha \lambda}(z^{k}+\alpha D^T(x-Dz))\\ z^{k+1}&=S_{\frac{\lambda}{L}}(z^{k}+\frac{1}{L} D^T(x-Dz)) \quad(\alpha=\frac{1}{L}) \end{aligned}$
$\qquad$ 只有当 $\geq \sigma_{max}(D^TD)$ 时，才能保证收敛性， $\sigma_{max}(A)$ 表示 $A$ 的最大特征值，soft thresholding function $S_{\theta}(x)$ 定义为：
$S_{\theta}(x)=sign(x) \cdot max(|x|-\theta,0)$
在这里插入图片描述