KSVD-字典学习入门

最新推荐文章于 2023-03-17 12:27:55 发布

Lucas爱ISAC

最新推荐文章于 2023-03-17 12:27:55 发布

阅读量481

点赞数 1

分类专栏：笔记文章标签：学习算法机器学习贪心算法

本文链接：https://blog.csdn.net/qq_46009045/article/details/129384320

版权

笔记专栏收录该内容

7 篇文章 14 订阅

订阅专栏

文章介绍了字典学习的思想，即通过学习得到的字典来近似表示原始数据，重点讨论了稀疏表示的概念和优化目标。K-SVD算法作为一种有效的求解方法，用于在保证稀疏性的前提下最小化数据与字典乘积的误差。文章还涉及到了奇异值分解在解决最小二乘问题中的应用，以更新字典和稀疏编码。

摘要由CSDN通过智能技术生成

字典学习思想

通过学习已有的文章和句子学习得到一个字典，字典的数据相比于文章句子来说更少，但是通过查阅字典，将字典里的字进行组合得到句子，得到文章。换言之，我们用更少的数据更低的维度的花销实现了更多数据更多维度的回报。
实际上字典学习实现的字典和现实中的字典还是有所不同：

字典学习的字典不需要完全的准确一摸一样的还原某个句子某篇文章，而是尽可能地逼近近似。
字典学习的字典希望查阅足够准确，也就是我们尽可能少用到字典的元素，用尽可能少的字典元素来表示某个句子某篇文章。

用数学的角度来表示：原始样本 $Y$ 即为已有的句子或者文章，字典矩阵 $D$ 为我们学习到的字典，尽可能的少用字典元素来组合出句子或文章即为得到一个稀疏矩阵 $X$ 来近似表示 $Y\approx Dx$ 。而我们要做的就是

字典学习理论

数学模型

$Y\in \mathbb{R}^{m\times n}$ 作为原始样本，我们的目的是寻找一个字典矩阵 $D\in \mathbb{R}^{m\times k}$ 以及一个稀疏矩阵 $X\in \mathbb{R}^{n \times k}$ 使得 $Y\approx DX$ 。
转化为优化问题的形式为：
$\min\limits_{D,X}\vert\vert Y-DX\rvert\rvert_F^2$
$\min\limits_{X}\vert\vert X\rvert\rvert_0$
即最小化 $Y$ 与 $D X$ 乘积之间的差距，同时我们希望 $X$ 能够尽量稀疏（拥有尽量少的非零元素）
一般这两个问题是有所矛盾的，即不能同时取得最优解，同时他们也被证明是一个NP-hard问题。
上述问题在实际中又被转化为另外的形式以满足不同实际问题。在满足一定稀疏度的条件下近似以及在满足一定相似性的情况下尽量稀疏。
形式一：
$\min\limits_{D,X}{\vert\vert Y-DX\rvert\rvert_F^2}\ \ \ \ \ \ \ \ \ \ \ s.j\ \ \ to\ \ \vert\vert X\rvert\rvert_0<A$
形式二： $\min\limits_{X}\vert\vert X\rvert\rvert_0\ \ \ \ \ \ \ \ \ \ s.j\ \ \ to\ \ \ \vert\vert Y-DX\rvert\rvert_F^2<\epsilon$
在实际解决问题时我们一般以形式一来进行处理（假设稀疏度 $A$ 已经选定）。

求解方法

对于字典学习的求解是一个迭代过程,目前应用广泛且非常有效的一种字典迭代方法是 $K - S V D$ 算法。
以形式二的优化问题来看，我们的目的就是稀疏码矩阵比较稀疏的情况下，追求 $D X$ 和 $Y$ 差值的二范数最小，得到此时的字典 $D$ 和稀疏向量 $X$ 。具体来求解则是通过对字典的每一列和稀疏向量的每一行通过目标函数来进行迭代更新。
假设字典和稀疏向量已经初始化， $Y$ 是 $m\times n$ 维的矩阵， $D$ 是 $m\times s$ 维的矩阵， $X$ 是 $s\times n$ 的矩阵。我们正在更新字典矩阵的第 $k$ 列和稀疏向量矩阵的第 $k$ 行，分别用 $d_k$ 和 $x _T^k$ 来表示字典矩阵的第 $k$ 列和稀疏向量矩阵的第 $k$ 行。

${\vert\vert Y-DX\rvert\rvert_F^2}={\vert\vert Y-\sum_{i=1}^sd_ix_T^i\rvert\rvert_F^2}$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ={\vert\vert Y-\sum_{i=1}^sd_ix_T^i\rvert\rvert_F^2}$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ={\vert\vert Y-\sum_{i\neq k}d_ix_T^i-d_kx_T^k\rvert\rvert_F^2}$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\vert\vert( Y-\sum_{i\neq k}d_ix_T^i)-d_kx_T^k\rvert\rvert_F^2$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\vert\vert E_k-d_kx_T^k\rvert\rvert_F^2$

此时优化目标即为 $\vert\vert E_k-d_kx_T^k\rvert\rvert_F^2$ ，第一项为 $m\times n$ 维的矩阵，第二也为 $m\times n$ 维的矩阵，第一项表示原始样本 $Y$ 与除了我们要更新的字典列和稀疏向量行乘积之外其他字典和稀疏向量乘积之间的差异，认为是固定不变，而我们目标是想通过更新 $d_k$ 和 $x_T^k$ 来弥补这个差异，当然不可能完全弥补只能减小。

这里有一个关键点，那就是我们并非直接更新 $d_k$ 和 $x_T^k$ ，因为这样会带来一个问题，那就是我们稀疏向量的稀疏性得不到保证，即更新完之后，我们的 $x_T^k$ 中的非零元素可能增加可能减少，哪怕减少，再下一次大的更新迭代过程中，因为其他行列的更新， $E_k$ 的变化无法预测，再次更新这一行时，非零元素个数可能会增多，因此我们必须保证更新后 $x_T^k$ 中的非零元素减少或者不变。

因此我们采取这样的策略，对于 $x_T^k$ 这一行，我们只更新其非零元素，保证他的稀疏性只会不变或者更稀疏。具体实现是把 $x_T^k$ 这一行的非零元素提取出来，构成新的行向量 $x^{'k}_T$ ,同时把对应位置的 $E_k$ 的列向量提取出来，构成新的矩阵 $E_k^{'}$ ，满足 $E_k^{'}$ 和 $d_kx^{'k}_T$ 的维度一致
保证X稀疏性的做法
以上图为例，即把 $x_T^k$ 的红色选定部分（值为0）剔除，把对应位置 $E_k$ 的列全部剔除，得到 $E_k^{'}$ 。

此时我们的优化目标变成了：
$\min\limits_{d_k,x^{'k}_T}\vert\vert E^{'}_{k}-d_kx_T^{'k}\rvert\rvert_F^2$ 这是一个最小二乘问题，可以利用最小二乘的方法求解，或者可以利用SVD进行求解,诚如这篇文章的标题，我们肯定是采用svd进行求解。
我们将 $E^{'}_k$ 进行奇异值分解得到：
$E_k^{'}=U\Sigma V^T$
分解后 $\Sigma$ 表示奇异值，是一个 $m\times s$ 维的矩阵，其除主对角线元素外其他位置均为零，且从大到小依次排序，我们令这些元素为 $\sigma_i$ ,同时令 $U$ 矩阵的每一列为 $u_i$ ， $V^T$ 矩阵的每一行为 $v_i$ 。
则又可以写作：
$E_k^{'}=U\Sigma V^T=u_1\sigma_1v_1+u_2\sigma_2v_2+u_3\sigma_3v_3\dots$
其中 $\sigma_1>\sigma_2>\sigma_3\dots$
因为 $U$ , $V$ 满足 $UU^T=I$ , $VV^T=I$ ，所以当我们对 $E_k^{'}$ 取 $F$ 范数平方时其值为1：
$\vert\vert E_k^{'}\rvert\rvert_F^2=\sigma^2_1+\sigma^2_2+\sigma^2_3+\dots$
即 $\sigma_1^2$ 的能量占据了 $E_k^{'}$ 能量的一大部分，所以我们选择用它所在的矩阵来对 $d_k$ 和 $x_T^{'k}$ 进行更新，从而逼近 $E_k^{'}$ ，因为还存在其他奇异值，所以只能是逼近。