线性代数|机器学习-P7SVD奇异值分解

取个名字真难呐

已于 2024-06-05 20:05:00 修改

阅读量871

点赞数 7

文章标签：机器学习线性代数人工智能

于 2024-06-05 08:22:55 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/139458060

版权

文章目录

1. 奇异值分解
- 1.1 SVD求解
- 1.2 行基和列基转换
2. Ax图像表示
3. 极坐标表示
4. 小结

1. 奇异值分解

现在我们用的是一个m行n列的矩阵A，那么我们计算下特征值方程：
$\begin{equation} A_{m\times n}x_{n\times 1}=\lambda x_{n\times 1};b_{m\times 1}=A_{m\times n}x_{n\times 1} \end{equation}$

当 $m\neq n$ 时， $b_{m\times 1}\neq \lambda x_{n\times 1}$ ,所以当A为长方形矩阵的时候，由于向量大小的原因，我们无法使用 $Ax=\lambda x$ 公式，为了解决如下问题，我们引入奇异值分解SVD。
$\begin{equation} A_{m\times n}=U_{m\times m}\Sigma_{m\times n}V^T_{n\times n},UU^T=I_{m\times m},VV^T=I_{n\times n} \end{equation}$

1.1 SVD求解

假设我们有任意矩阵A，可以得到SVD分解， $A=U\Sigma V^T$ ,那么我们可以构造对称矩阵进行求解； $UU^T=I,VV^T=I$
$\begin{equation} AA^T=U\Sigma V^TV\Sigma^TU^T=U(\Sigma\Sigma^T)U^T \end{equation}$

我们可以把 $AA^T$ 看作是矩阵A右乘一个矩阵 $A^T$ ,所以可以得到 $AA^T$ 为矩阵A的列向量的线性组合，所以得到的U肯定在A的列向量空间中。这样可以得到 $U,\Sigma$
$\begin{equation} A^TA=V\Sigma^TU^TU\Sigma V^T=V(\Sigma^T\Sigma) V^T \end{equation}$
我们可以把 $A^TA$ 看作是矩阵A左乘一个矩阵 $A^T$ ,所以可以得到 $A^TA$ 为矩阵A的行向量的线性组合，所以得到的V肯定在A的行向量空间中。这样可以得到 $V,\Sigma$
最后我们通过验证 $Av=\sigma u$ 来验证 $\sigma$ 的符号。
-奇异值SVD分解后矩阵向量分布情况如图：
我们发现，对于矩阵A的分解来说，有部分向量 $u_{r+1}\cdots u_m$ 对于与 $\sigma_{r+1}=\cdots=\sigma_n=0$ ，所以这部分的向量其实是 $N(A^T)$ 零空间向量，所以我们希望更一步进行压缩矩阵，我们本身希望用非零的特征值，具体公式如下：
$\begin{equation} Av_1=\sigma_1 u_1,Av_2=\sigma_2 u_2,\cdots Av_r=\sigma_r u_r \end{equation}$
整理可得如下：
$\begin{equation} A\begin{bmatrix}v_1&v_2&\cdots&v_r\\\\&row-space\end{bmatrix}=\begin{bmatrix}u_1&u_2&\cdots&u_r\\\\&column-space\end{bmatrix}\begin{bmatrix}\sigma_1&\\\\&\sigma_2\\\\&&\ddots\\\\&&&\sigma_r\end{bmatrix}\rightarrow AV_r=U_r\Sigma_r \end{equation}$

1.2 行基和列基转换

这样 $AV_r=U_r\Sigma_r$ 中的均无零向量和零值了。真神奇的想法！！那么行空间的基向量通过上面公式就可以映射到列空间的基向量上，具体如图所示：
证明当 $v_1\perp v_2$ ,经过 $Av=\sigma u$ 时， $u_1\perp u_2$
$\begin{equation} u_1=\frac{Av_1}{\sigma_1},u_2=\frac{Av_2}{\sigma_2},u_1^Tu_2=(\frac{Av_1}{\sigma_1})^T\frac{Av_2}{\sigma_2}=\frac{v_1^TA^TAv_2}{\sigma_1\sigma_2} \end{equation}$
我们之前得到如下结论 $A^TAv_2=v_2\sigma_2^2$ ，代入可得：
$\begin{equation} u_1^Tu_2=\frac{v_1^TA^TAv_2}{\sigma_1\sigma_2}=\frac{v_1^T\sigma^2_2v_2}{\sigma_1\sigma_2}=\frac{\sigma_2v_1^Tv_2}{\sigma_1}=0\rightarrow u_1\perp u_2 \end{equation}$

2. Ax图像表示

假设我们有一个矩阵A，进行分解后得到 $A=U\Sigma V^T$ ,那么可得：
$\begin{equation} Ax=U\Sigma V^Tx \end{equation}$

step1: $V^Tx$ 将图像旋转
step2: $\Sigma V^Tx$ 将图像沿轴拉伸
step3: $U\Sigma V^Tx$ 将图像旋转
小结，Ax的本质是将向量的基进行旋转，拉伸，旋转作用

3. 极坐标表示

我们希望将任意一个矩阵A分解为一个对称矩阵S和正交矩阵Q的形式，可以进行如下变形：
$\begin{equation} A=U\Sigma V^T=(U\Sigma U^T) (UV^T),S=U\Sigma U^T,Q=UV^T \end{equation}$

4. 小结

通过SVD奇异值分解可得，我们将任意矩阵分解后，可以挑选出r个重要的非零特征值的矩阵。
$\begin{equation} A=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_ru_rv_r^T,\sigma_1\geq\sigma_2\geq\cdots\geq\sigma_r; \end{equation}$

所以可得得到矩阵A中最重要的信息在 $\sigma_1u_1v_1^T+\cdots+\sigma_ku_kv_k^T$ 上。其他的部分因为 $\sigma_{k+1}u_{k+1}v_{k+1}^T+\cdots+\sigma_ru_rv_r^T$ 中的 $\sigma$ 太小而可以忽略，这样就起到以小的矩阵组合来表示原始矩阵的方式，这个就是我们的 主成分分析PCA，真神奇！！！