《矩阵论》学习笔记（四）：第四章矩阵分解

最新推荐文章于 2022-11-01 16:59:38 发布

熊宝宝爱学习

最新推荐文章于 2022-11-01 16:59:38 发布

阅读量930

点赞数 1

分类专栏：数学文章标签：线性代数矩阵

本文链接：https://blog.csdn.net/sinat_36831051/article/details/105531910

版权

数学专栏收录该内容

18 篇文章 12 订阅

订阅专栏

《矩阵论》学习笔记（四）：第四章矩阵分解

三、矩阵的满秩分解

提出的目的：
将非零矩阵分解成行满秩矩阵与列满秩矩阵的乘积。

3.1. 基本原理

对任意矩阵 $A∈C^{m*n}_r$ ，若存在行满秩矩阵 $F∈C^{m*r}_r$ 和列满秩矩阵 $G∈C^{r*n}_r$ ，
使得： $A = F G$ ，称做A的满秩分解。

列满秩矩阵G：
是从A经过初等行变换得到的行阶梯型矩阵B中得到的。
$\to B=\left[ \begin{matrix}G\\—\\ O\end{matrix}\right]$
行满秩矩阵F：
把A变换得到B的一系列初等行变换的乘积记做P，使得PA=B。
$P^{-1}= \left[ \begin{matrix}F|S\end{matrix}\right]，F∈C^{m*r}_r，S∈C^{m*(m-r)}_{(m-r)}$

- 列满秩矩阵G：
是从A经过初等行变换得到的行阶梯型矩阵B中得到的。 $\to B=\left[ \begin{matrix}G\\—\\ O\end{matrix}\right]$
- 行满秩矩阵F：
把A变换得到B的一系列初等行变换的乘积记做P，使得PA=B。 $P^{-1}= \left[ \begin{matrix}F/S\end{matrix}\right]，(F∈C^{mr}_r，S∈C^{m(m-r)}_{(m-r)})$

存在性与唯一性：
存在性：任意矩阵A的满秩分解一定存在。
唯一性：不唯一。
矩阵满秩分解的一般方法：
1- $\to [B|P]$ ;
2- $\to G;P \to P^{-1} \to F$

- 矩阵满秩分解的一般方法：
1- $\to [B P]$ ;
2- $\to G;P \to P^{-1} \to F$

3.2. Hermite标准型方法

Hermite标准型方法
1- Hermite标准型
2- 拟Hermite标准型

Hermite标准型方法求解步骤 A=FG
1. B：行化简矩阵A $_{mn}$ 得到B $_{mn}$ ;
2. F：从B的m列中找到属于单位阵 $I_{mm}$ 的r列，从原始矩阵A中把这些列提出来，组合得到矩阵F $_{mr}$ ;
3. G：B的前r行不为0的行构成G $_{r*n}$ .

四、矩阵的奇异值分解

4.1. 矩阵的正交对角分解

$A_{n*n}$ 为可逆方阵，则存在正交矩阵P和Q，使得：

$P^TAQ=diag(\sigma_1,\sigma_2,...,\sigma_n)$ ，其中， $\sigma_i=\sqrt[]\lambda_i，\lambda_i$ 为 $A^TA$ 的特征值。
$Q^T(A^TA)Q=diag(\lambda_1,\lambda_2,...,\lambda_n).$

即， $A=P*diag(\sigma_1,\sigma_2,...,\sigma_n)*Q^T$ 称作矩阵的正交对角分解。

4.2. 矩阵的奇异值分解

提出的意义：
对方阵 $A_{n*n}$ ，可分解成正交矩阵×特征值组成的对角矩阵的形式，那么对一般矩阵 $A_{m*n}$ 是否存在这样的分解呢？
矩阵的奇异值：

设 $A∈C^{m*n}_r$ ，A^TA$的特征值为：
$\lambda_1≥\lambda_2,...,≥\lambda_r>\lambda_{r+1}=...=\lambda_n=0$ ，称 $\sigma_i=\sqrt[]\lambda_i$ 为 $A$ 的奇异值。

奇异值个数=A的列数n，非零奇异值个数=rank(A).

矩阵的奇异值分解：
$A=U\left[ \begin{matrix}∑&O\\O&O\end{matrix}\right]V^H$
其中， $∑=diag(\sigma_1,\sigma_2,...,\sigma_n)$ .
$U_{m*m}$ 的列向量是 $A^HA$ 的特征向量， $V_{n*n}$ 的列向量是 $AA^H$ 的特征向量。
如下图：

- 求矩阵A的SVD分解步骤：
1. 求Hermite矩阵 $A^HA$ 的特征值 $\lambda_i$
2. 求矩阵A的秩(=非零奇异值个数)
3. 求A的奇异值 $\sigma_i=\sqrt[]\lambda_i$
4. 求酉矩阵 $V_{n*n}$ [V是使得 $V^T(A^HA)V=I$ 的正交矩阵]
5. 求酉矩阵 $U=[U_1/U_2]，U_1=AV_1∑^{-1}$
6. 得到A的SVD分解.

-	奇异值分解的存在性与唯一性
存在性：	一定存在
唯一性：	矩阵A的奇异值唯一: $\sum$ 唯一，但奇异分解不唯一: U和V不唯一

奇异值分解的几何意义：
奇异值分解就是在低维空间中寻找最接近原矩阵A的低维矩阵M，也即是数据降维过程。
奇异值分解就是在寻找数据分布的主要维度，将原始的高维数据映射到低维子空间中实现数据降维。

4.3. 矩阵的正交相抵

正交相抵是对“矩阵相似”概念的推广。

正交相抵的定义：

$A,B∈R^{m*n}$ ，若存在正交矩阵 $U_{m*m}$ 和 $V_{n*n}$ ，使得 $B=U^{-1}AV$ ，则称A和B相抵。

正交相抵的性质：

-	矩阵的正交相抵的性质
1.	同一正交相抵等价类中的所有矩阵有相同的特征值。
2.	同一正交相抵等价类中的所有矩阵的奇异值分解 $A=UDV^T$ 的矩阵D相同。

4.4. 矩阵奇异值分解的应用

SVD的应用：

可以用于PCA降维，来做数据压缩(图像压缩)和去噪。
可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。
可以用于NLP中的算法，比如潜在语义索引（LSI）。

SVD用于PCA降维：

背景及原因：
通常情况下高维数据分布并不是雨露均沾的，而往往是厚此薄彼，集中分布在某些维度上，如下左图。
可以看到：原始数据确是二维数据，但其主要集中分布在直线L(一维空间)附近，SVD(奇异值分解)就是在寻找直线L，然后将数据映射到直线L上，实现数据降维的过程，如下右图。
具体用法：
具有大量特征的数据(样本集矩阵特征数/列数多于观察数/行数)，通过SVD分解，将特征维度降低，归约成与所涉预测问题最相关的更小特征子集。
其结果是一个秩更低的矩阵，接近原始矩阵。
为了做到这一点，我们可以在原来的数据上执行一次SVD分解操作并选择矩阵D中前k个最大的奇异值，作为降维后数据的特征。
如下图：原图 vs k=10 vs k=50 vs k=80，当k=80跟原图已经几乎没有差别，但是存储消耗只有原图的一半。