（全面）矩阵分解相关知识总结

YTALIIEN

于 2022-10-09 09:56:47 发布

阅读量1.7k

点赞数

分类专栏：基础知识整理

本文链接：https://blog.csdn.net/YTALIEN11/article/details/127221107

版权

基础知识整理专栏收录该内容

1 篇文章

订阅专栏

前言

第一次进行综合性的知识总结，作为一个参考手册供需要的时候进行查阅

矩阵分解

文章目录

- - - 前言
矩阵分解

矩阵分解介绍

矩阵分解（Matrix decomposition），是将一个矩阵拆解为数个矩阵的乘积的运算。通过矩阵分解，将一个复杂的矩阵用更小更简单的几个矩阵来表示，简化计算，从复杂的数据中提取出相对重要的特征信息，实现信息抽象。在图像处理，模式识别，自然语言处理中应用广泛。依照使用目的和适用范围不同，大致分为如下几种：

特征值分解（EVD）
奇异值分解（SVD）
三角分解
极分解

一、特征值分解

1.1 简介

特征值分解（Eigenvalue decomposition，EVD），又称为谱分解（Spectral decomposition），是将矩阵（特指方阵）分解为由其特征值和特征向量表示的矩阵乘积的方法.

1.2 定义和说明

1.2.1 特征值和特征向量

对于 $n$ 维非零向量 $v$ , $n\times n$ 矩阵（ $n$ 阶方阵） $A$ ，如果满足 $Av=\lambda v \tag{1}$ 那么 $v$ 被称为矩阵A的特征向量，而 $\lambda$ 被称为特征向量 $v$ 对应的特征值，一个矩阵的一组特征向量是彼此正交的。

我们再来从几何的角度来理解一下特征值和特征向量的意义：矩阵对应一个线性变换，矩阵乘法 $A v$ 类似于施加在向量 $v$ 上的一个函数，对 $v$ 进行旋转、伸缩的变化产生一个新向量。如果矩阵对某一个向量或某些向量只发生伸缩变换，不对这些向量产生旋转的效果，那么这些向量就称为这个矩阵的特征向量，伸缩的比例就是特征值。

1.2.2 求解特征值和特征向量

对 $Av=\lambda v$ 做一个简单变形有 $\lambda I)v=0$ ，其中 $I$ 为 $\times n$ 的单位矩阵。我们知道，该公式有非零解，需要系数矩阵的秩小于 $n$ ，系数行列式
$\begin{array}{l}|A – \lambda I| =\begin{vmatrix} a_{11}-\lambda & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22}-\lambda & \cdots & a_{2n}\\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn}-\lambda \end{vmatrix}\end{array}=0\tag{2}$

通常， $\lambda I|$ 称为矩阵A的特征多项式，求解出的$\lambda_i, i=1,2,…,n $即为矩阵A对应的特征值。

对每个特征值 $\lambda_i$ ，代入 $(A-\lambda_i I)v=0$ ，即可求出特征向量。每个特征值可对应多个特征向量（方向相同，模长不同），在实际应用中我们通常使用模长为1的单位特征向量。

1.2.3 特征值分解

上面已经求出了 $A$ 的特征值和特征向量，矩阵的特征值分解过程就非常简单了。

特征值分解就是将方阵 $A$ 分解成如下形式 $A=Q\Sigma Q^{-1}\tag{3}$ 其中， $\Sigma$ 是对角阵，对角元从左上到右下依次为矩阵 $A$ 的特征值从大到小的排列， $Q$ 是将单位化的特征向量作为列向量的可逆矩阵，即 $Q^TQ=I$ 或者说 $Q^T=Q^{-1}$ ，也就是说 $Q$ 为酉矩阵。特征值分解是存在的，我们把式(3)换一种形式就很好理解： $AQ=Q\Sigma$ 。

从式（3）可以看出，其实特征值分解就是一个基变换， $Q$ 是过渡矩阵，将 $A$ 变换到以特征向量为基的空间上，而 $\Sigma$ 就是 $A$ 矩阵表达的线性变换在以特征向量为基的空间上的表达，因为一组基必须是正交的，所以要求A是对称矩阵，而对称矩阵一定是方阵。

1.2.4 直观理解特征值分解

首先再次明确，一个矩阵其实就是一个线性变换，所以一个矩阵乘一个向量后得到的向量，相当于是这个向量进行了线性变换。而线性变换一般有以下两种：

旋转
伸缩

一个矩阵表示的线性变换结果就是以上两种变换的合成。而特征值分解刚好可以将这两种变换的作用分解开来。
我们以一个二阶方阵进行举例，方便在平面上表示出来：
$A=\begin{pmatrix} 2 & -1 \\ -1 & 2 \\ \end{pmatrix} =Q\Sigma Q^{-1}=\begin{pmatrix} -\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \end{pmatrix}\begin{pmatrix} 3 & 0 \\ 0 & 1 \\ \end{pmatrix}\begin{pmatrix} -\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \end{pmatrix}$

我们将 $Q^{-1}$ 的两个列向量单独拿出来，记作 $\vec{i}=(-\frac{\sqrt{2}}{2} \quad\frac{\sqrt{2}}{2})^T$ ， $\vec{j}=(\frac{\sqrt{2}}{2} \quad\frac{\sqrt{2}}{2})^T$ ，因为它们彼此正交，所以以它们作为基，构成坐标系，如下图所示。
在这里插入图片描述

接下来对这组基构成的坐标系进行线性变换，左乘 $Q=\begin{pmatrix} -\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \end{pmatrix}$ ，相当于对 $\vec{i}$ , $\vec{j}$ 做了旋转变换,如下图所示
在这里插入图片描述

再左乘对角矩阵 $\Sigma=\begin{pmatrix} 3 & 0 \\ 0 & 1 \\ \end{pmatrix}$ ，相当于对 $\vec{i}$ , $\vec{j}$ 作了拉伸变换，如下图所示
在这里插入图片描述

也就是说，矩阵 $A$ 就是拉伸、旋转变换的合成，对 $A$ 的特征向量够成一组基进行变换。所以对于特征值分解，我们可以这样理解：

特征值：伸缩的大小（伸缩系数）
特征向量：伸缩的方向（旋转变换）

我们通过特征值分解得到某个变换的 $n$ 个特征向量，这 $n$ 个向量对应了这个矩阵的最重要的 $n$ 个变化（伸缩变换）的方向，而我们利用这 $n$ 个方向，就可以近似这个矩阵，也就提取到了这个矩阵的最重要的特征。

特征值：该特征的重要程度
特征向量：该特征是什么

1.3 局限

由于要保证式（3）中 $Q$ 的列向量彼此正交，因此 $A$ 必须是对称阵，也就是说，特征值分解中变换的矩阵 $A$ 必须是方阵。这在实际应用中局限较大。

二、奇异值分解

2.1 简介

由于在实际应用中，很多情况下都无法保证待分解矩阵为方阵，因为需要一种更加一般的方式进行矩阵分解。

奇异值分解（singular value decomposition，SVD），就是这样一种分解方法。它是特征值分解在任意矩阵上的推广。复杂矩阵所代表的线性变换可由若干个简单矩阵所代表的线性变换组合起来，使用SVD能找到这些简单矩阵。

2.2 定义和说明

2.2.1 奇异值分解

对于一个非零的$m\times n $实矩阵$ A$，可以表示为以下形式
$\Sigma V^T \tag{4}$

则 $\Sigma V^T$ 称为矩阵A的奇异值分解，其中， $U$ 是 $m$ 阶正交矩阵，且其列向量称为 $A$ 的左奇异向量， $V$ 是 $n$ 阶正交矩阵，且其列向量称为 $A$ 的右奇异向量， $\Sigma$ 是由 $A$ 的奇异值 $\sigma_i(i=1,2,...,n)$ 降序排列的$m\times n $对角矩阵。$ U $和$ V $都是酉矩阵，即满足$ U^TU=I,VTV=I$。下图可以很形象的看出上面SVD的定义：
在这里插入图片描述

2.2.2 直观理解奇异值分解

一个$m\times n $矩阵$ A $，表示一个从$ n $维空间到$ m $维空间的一个线性变换$ T:x\to Ax $，其中，$ x$ 是 $n$ 维空间的向量， $A x$ 是 $m$ 维空间的向量。

我们知道（4）对应的线性变换可以分解成三个简单的变换：一个坐标系的旋转变换、一个坐标轴的伸缩变换、另一个坐标系的旋转变换，而奇异值分解就是保证对于任意一个矩阵，这样的分解一定存在，并且不是唯一的。

由式（4）我们知道， $V$ 的列向量 $(v_1\quad v_2 \quad... \quad v_n)$ 可以构成一组标准的正交基， $v_i^T=(v_{i1},v_{i2},...,v_{im})$ 表示在一个 $n$ 维空间中正交坐标系的旋转变换，类似地， $U$ 的列向量 $(u_1\quad u_2\quad...\quad u_m)$ 也可以构成一组标准正交基，表示一个 $m$ 维空间中正交坐标系的旋转变换，而 $\Sigma$ 的对角元素 $\sigma_1,\sigma_2,...,\sigma_n$ 是一组非负实数，表示 $n$ 维空间中原始正交坐标系坐标轴的对应伸缩系数的伸缩变换.

而对于式（4）的分解过程，可以这样理解，原始空间（ $n$ 维）的标准正交基，经过坐标系 $V^T$ 的旋转变换，再经过坐标轴 $\Sigma$ 的伸缩变换，然后再经过 $U$ 的旋转变换，最后得到和线性变换 $A$ 等价的效果，一个二维的正交坐标系变换如下图所示
在这里插入图片描述

在上图中，黄色和红色表示原始的正交坐标系，先经 $V^T$ 的旋转变换，再经过 $\Sigma$ 的伸缩变换（黑色的 $\sigma_1 和\sigma_2$ 表示各坐标轴的伸缩系数），最后再经 $U$ 的旋转变换，得到直接和A变换相同的结果。

2.2.3 奇异值分解计算

那么如何求出SVD分解后的 $U, Σ, V$ 这三个矩阵呢？
对于任意矩阵 $A$ ，如果我们将 $A^T$ 和 $A$ 做矩阵乘法，那么会得到 $n \times n$ 的一个方阵 $A^TA$ 。既然 $A^TA$ 是方阵，那么可以进行特征值分解，得到的特征值和特征向量满足下式：
$(A^T A)v_i=\lambda_i v_i \tag{5}$

这样就可以得到矩阵 $A^TA$ 的 $n$ 个特征值和对应的 $n$ 个特征向量 $v$ 了。将 $A^TA$ 的所有特征向量张成一个 $n \times n$ 的矩阵 $V$ ，就是SVD公式里面的 $V$ 矩阵了。一般将 $V$ 中的每个特征向量叫做 $A$ 的右奇异向量。

如果我们将 $A$ 和 $A^T$ 做矩阵乘法，那么会得到 $m \times m$ 的一个方阵 $AA^T$ 。既然 $AA^T$ 是方阵，那么可以进行特征分解，得到的特征值和特征向量满足下式：
$(AA^T)u_i=\lambda_iu_i \tag{6}$

这样就可以得到矩阵 $AA^T$ 的 $m$ 个特征值和对应的 $m$ 个特征向量 $u$ 了。将 $AA^T$ 的所有特征向量张成一个 $m \times m$ 的矩阵 $U$ ，就是SVD公式里面的 $U$ 矩阵了。一般将 $U$ 中的每个特征向量叫做 $A$ 的左奇异向量。

上面其实很容易证明，我们以 $V$ 矩阵的证明为例:
$A=U\Sigma V^T \Rightarrow A^T=V\Sigma^T U^T \Rightarrow A^TA = V\Sigma^T U^TU\Sigma V^T = V\Sigma^2V^T\tag{7}$

可以看出 $A^TA$ 的特征向量组成的的确就是SVD中的 $V$ 矩阵。类似的方法可以得到 $AA^T$ 的特征向量组成的就是SVD中的 $U$ 矩阵。

进一步还可以看出 $AA^T$ 的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系：
$\sigma_i=\sqrt{\lambda_i},\quad i=1,2,...,n \tag{8}$

以上 $\sigma_i$ 构成 $\Sigma$ 的各个元素，得到 $\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_n)$ 。

另外，注意到:
$A=U\Sigma V^T \Rightarrow AV=U\Sigma V^TV \Rightarrow AV=U\Sigma \Rightarrow Av_i = \sigma_i u_i \tag{9}$

也可以由 $v_i$ 和 $\lambda_i$ 来求 $u_i$ ：
$u_i=\frac{1}{\sigma_i}Av_i,\quad i=1,2,...,r\tag{10}$

其中， $r$ 表示 $A$ 的前 $r$ 个正奇异值，可以得到 $U_1=(u_1\quad u_2 \quad ...\quad u_r)$ 。再求 $A^T$ 的零空间的一组标准正交基 ${u_{r+1},u_{r+2},...,u_m\}$ , 可以得到 $U_2=(u_{r+1}\quad u_{r+2} \quad ...\quad u_m)$ ，最终可以得到 $U=(U_1\quad U_2)$ 。

2.3 紧奇异值分解和截断奇异值分解

由式（8）可知，奇异值的减少呈幂函数形式下降，而根据大多是实际应用数据可知，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上，因此，在具体应用中往往并不会如式（4）所示进行矩阵的完全奇异值分解，而常以以下两种形式出现。

2.3.1 紧奇异值分解

对于 $m\times n$ 实矩阵A, 满足 $r\leq min\{m,n\}$ ,则称 $A=U_r\Sigma_rV_r^T \tag{11}$ 为A的紧奇异值分解(compact singular value decomposition)，其中， $U_r$ 是 $m\times r$ 矩阵， $V_r$ 是 $n\times r$ 矩阵， $\Sigma_r$ 是 $r$ 阶对角矩阵，可分别由式（4）中的 $V$ , $U$ 的前 $r$ 列得到，和 $\Sigma$ 的前 $r$ 个对角线元素得到。

2.3.2 截断奇异值分解

对于 $m\times n$ 实矩阵A, 满足 $r ank (A) = r, 0 < k < r$ ,则称 $A=U_k\Sigma_kV_k^T \tag{12}$ 为A的截断奇异值分解(truncated singular value decomposition)，其中， $U_k$ 是 $m\times k$ 矩阵， $V_k$ 是 $n\times k$ 矩阵， $\Sigma_k$ 是 $k$ 阶对角矩阵，可分别由式（4）中的 $V$ , $U$ 的前 $k$ 列得到，和 $\Sigma$ 的前 $k$ 个对角线元素得到，并且，对角矩阵 $\Sigma_k$ 的秩比原始矩阵 $A$ 的秩低。

在实际应用中，截断奇异值分解方法应用较多，一般在实际应用中提到的奇异值分解，通常就是指截断奇异值分解。一般来说， $k$ 比 $r$ 小很多，所以，使用截断奇异值分解，我们可以将一个大的、复杂的矩阵，分解成三个小的矩阵，是一个常见的降维方法。

2.3.3 二者关系比较

奇异值分解是在平方损失（弗罗贝尼乌斯范数，Frobenius norm）意义下对矩阵的最优近似。紧奇异值分解对应着无损压缩，而截断奇异值分解对应有损压缩。

2.4 应用

因为奇异值分解的特性，SVD可以用于PCA（见2.4.1）降维，用于数据压缩和去噪；也可以用于推荐算法，将用户的喜好与对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐；还可用于自然语言处理，如潜在语义分析（见2.4.2），应用在推荐系统、图像处理以及生物信息学等领域。

2.4.1 主成分分析（PCA）

主成分分析（principle component analysis,PCA），常用的无监督学习方法，利用正交变换把线性相关变量表示的观测数据转换为少数几个线性无关变量表示的数据，这些线性无关的变量称为主成分。

在主成分分析中，一般遵循以下操作步骤

其中， $k << r$ ，新变量称为第一主成分，第二主成分，…，第 $k$ 主成分；新变量可能是正交变换中变量的方差最大的，方差表示在新变量上信息的大小。

通过主成分分析，可以利用主成分近似地表示原始数据，把复杂的原始数据交给少量的主成分来表述，实现数据降维。

2.4.2 潜在语义分析（LSA）

潜在语义分析（latent semantic analysis,LSA）是一种无监督学习方法，通过矩阵分解发现文本与单词之间的基于话题的语义关系。

主要利用矩阵的奇异值分解，对单词-文本矩阵进行奇异值分解，如式（12）所示，将 $U_k$ 作为话题空间，将 $\Sigma_k V_k^T$ 作为文本在话题空间的表示，从而进行潜在语义分析。

三、三角分解

3.1 LU分解

3.1.1 定义

将 $n\times n$ 矩阵（特指方阵） $A$ 分解成 $L$ （下三角）矩阵和 $U$ （上三角）矩阵的乘积。 $A=LU\tag{13}$ 其中， $A$ 如果能分解，应该满足： $A$ 的前 $n - 1$ 阶顺序主子式 $\Delta_k\neq 0(k=1,2,...,n-1)$ 。

3.1.2 计算

使用矩阵的三个初等变换可以得到上（下）三角矩阵。

用非零常数 $c$ 乘矩阵 $A$ 的第 $i$ 行
矩阵 $A$ 的第 $j$ 行的 $k$ 倍加到第 $i$ 行
互换矩阵 $A$ 的第 $i$ 行和第 $j$ 行

3.1.3 求解线性方程组的应用

在数值计算中，要求解形如 $Ax=b\tag{14}$ 这样的非齐次线性方程组，我们知道，应该尽量避免计算 $A^{-1}$ ，所以需要找一个能够替代 $x=A^{-1}b$ 的方案，就可以使用 $LU$ 分解。先把 $A$ 分解成 $LU$ 即 $LUx = b$ ，然后通过求解线性方程组 $Ly=b\tag{15}$ 可以求解出 $y$ ，最后再通过 $Ux=y\tag{16}$ 求解 $x$ 。
下面看一个更直观的展示：

正向代入求 $y$
$Ly=\begin{pmatrix} l_{11} & 0& 0&0 \\ l_{21} & l_{22}& 0& 0 \\ l_{31} & l_{32}&l_{33}& 0\\l_{41} & l_{42}&l_{43}&l_{44}\\\end{pmatrix} \begin{pmatrix} y_1\\y_2\\y_3\\y_4 \\ \end{pmatrix}= \begin{pmatrix} l_{11}y_1\\ l_{21}y_1 + l_{22}y_2\\ l_{31}y_1 + l_{32}y_2+l_{33}y_3\\l_{41}y_1 + l_{42}y_2+l_{43}y_3+l_{44}y_4\\\end{pmatrix}=\begin{pmatrix} b_1\\b_2\\b_3\\b_4 \\ \end{pmatrix}$
反向代入求 $x$

$Ux=\begin{pmatrix} u_{11} & u_{12}& u_{13}&u_{14} \\ 0 & u_{22}& u_{23}&u_{24} \\ 0 & 0 & u_{33}&u_{34}\\0 & 0 & 0 &u_{44}\\\end{pmatrix} \begin{pmatrix} x_1\\x_2\\x_3\\x_4 \\ \end{pmatrix}= \begin{pmatrix} u_{11}x_1 + u_{12}x_2+ u_{13}x_3+u_{14}x_4 \\ u_{22}x_2+ u_{23}x_3+u_{24}x_4 \\ u_{33}x_3+u_{34}x_4\\u_{44}x_4\\\end{pmatrix}=\begin{pmatrix} y_1\\y_2\\y_3\\y_4 \\ \end{pmatrix}$

3.1.4 求解线性方程组的复杂度讨论

$n\times n$ 矩阵A分解成 $LU$ 的过程，复杂度为 $O(n^3)$ 。而上述求解线性方程组的计算，前向代入中，第一行计算1个乘法，第二行计算2个乘法和1个加法，以此类推，可以得到复杂度为 $O(n^2)$ .

这样的复杂度在计算像式（14）那样的线性方程组时，如果不考虑 $A$ ，只有方程右边的 $b$ 发生变化的话，那么计算复杂度从 $O(n^3)$ 下降为 $O(n^2)$ ，实现了一个级次的降低。而如果要计算 $A^{-1}$ 的话，根据高斯消元法的复杂度，是 $O(n^3)$ ，因此这种方法在实际应用中，对于复杂的计算速度大大提高。

3.2 LDU分解

将 $n\times n$ 矩阵 $A$ 分解成 $A=LDU\tag{17}$

其中， $L$ 为单位下三角矩阵， $U$ 为单位上三角矩阵， $D$ 是 $n$ 阶对角矩阵，满足 $D=diag(d_1,d_2,...,d_n)$ $d_k=\frac{\Delta_k}{\Delta_{k-1}}=a_{kk}^{(k)},\quad k=1,2,...,n\tag{18}$ 并且，矩阵 $A$ 应该满足： $A$ 的前 $n - 1$ 阶顺序主子式 $\Delta_k\neq 0(k=1,2,...,n-1)$ 。

3.3 其他三角分解

杜立特/克劳特分解 ：将 $n\times n$ 矩阵 $A$ 分解成 $A=LU\tag{19}$ 其中，如果 $L$ 是单位下三角矩阵， $U$ 是上三角矩阵，则式（18）称为杜立特（Doolittle）分解；如果 $L$ 是下三角矩阵， $U$ 是单位上三角矩阵，则式（19）称为克劳特（Crout）分解。