【矩阵论】3.矩阵分解

pp猪经纪人

已于 2024-05-15 22:32:17 修改

阅读量785

点赞数 13

分类专栏：矩阵论文章标签：矩阵

于 2024-04-28 09:40:40 首次发布

本文链接：https://blog.csdn.net/weixin_42438398/article/details/138187054

版权

矩阵论专栏收录该内容

9 篇文章 0 订阅

订阅专栏

3 矩阵分解

3.1 三角分解（ LU 分解）

定义 3.1.1 给定矩阵 $A\in\mathbf{R}^{n\times n}$ , 若存在下三角矩阵 $L\in\mathbf{R}^{n\times n}$ 和上三角矩阵 $U\in\mathbf{R}^{n\times n}$ 使得 $A = LU$ , 这种分解称为矩阵的一个三角分解，又称 $LU$ 分解。（Gauss消去法，待定系数法）

定理 3.1.2 给定矩阵 $A\in\mathbf{R}^{n\times n}$ , 存在单位下三角阵 $L\in\mathbf{R}^{n\times n}$ 和可逆上三角阵 $U\in\mathbf{R}^{n\times n}$ , 使得 $A = LU$ 的充分必要条件是 $A$ 的各阶顺序主子阵均不为零.

$~~~~~~\begin{aligned} \begin{vmatrix}a_{11}&a_{12}&...&a_{1,n-1}\\a_{21}&a_{22}&...&a_{2,n-1}\\\vdots&\vdots&&\vdots\\a_{n-1,1}&a_{n-1,2}&...&a_{n-1,n-1}\end{vmatrix}& =\begin{vmatrix}a_{11}^{(1)}&a_{12}^{(1)}&\cdots&a_{1n}^{(1)}\\&a_{22}^{(2)}&&a_{2n}^{(2)}\\&&\ddots&\vdots\\&&&a_{n-1,n-1}^{(n-1)}\end{vmatrix}=a_{11}^{(1)}a_{22}^{(2)}\cdotp\cdotp\cdotp a_{n-1,n-1}^{(n-1)}, \end{aligned}$

Doolittle 分解

$A = LU$ , $L$ 是单位下三角矩阵， $U$ 是上三角矩阵。在 Gauss 消去过程中有

$\mathbf{A}=\mathbf{L}_1^{-1}\mathbf{L}_2^{-1}\cdotp\cdotp\cdotp\mathbf{L}_{n-1}^{-1}\mathbf{A}^{(n)}.$ $\boldsymbol{L}_i^{-1}=\begin{bmatrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&l_{i+1,i}&1&&\\&&\dots&&\ddots&\\&&l_{n,i}&&&1\end{bmatrix},\quad i=1,2,\cdots,n-1$

记 $L=L_1^{-1}L_2^{-1}...L_{n-1}^{-1}$ 是单位下三角矩阵， $U=A^{(n)}$ 是一个上三角矩阵，则有 $A = LU$ .

Crout 分解 $A = LU$ , 这里 $L$ 是下三角矩阵， $U$ 是单位上三角矩阵.

LDU 分解 $A = L D U$ , 这里 $L$ 是单位下三角矩阵， $D$ 是对角矩阵， $U$ 是单位上三角矩阵.

以上三种分解统称为矩阵的三角分解，或者 $LU$ 分解。如果不作特殊说明，一般所说的 $LU$ 分解就是指 Doolittle 三角分解。实际上，尽管矩阵的三角分解不唯一，但是矩阵的这三种三角分解具有唯一性。

定理 3.1.3 若 $A$ 为 $n$ 阶矩阵，且所有顺序主子式均不等于零，则 $A$ 可分解为一个单位下三角矩阵 $L$ 与一个上三角矩阵 $U$ 的乘积，即 $A = LU$ ，且分解是唯一的. ( $L_{2}^{-1}L_{1}=U_{2}U_{1}^{-1}=E$ )

定理 3.1.4 如果矩阵 $A$ 的所有顺序主子式均不等于零，则
(1) $A$ 有唯一的三角分解 $: A = L D U$ ；(2) $A$ 有唯一的 Crout 分解 $: A = LU$ 。

Cholesky 分解(对称正定矩阵)

当 $A$ 为对称正定矩阵时，它的所有顺序主子式都大于零，故由定理3.4可知存在唯一的 $L D U$ 分解. 由于对称正定的特殊性，可以得到一个性质更好的三角分解. （待定系数法求 Cholesky 分解）

定理 3.1.5 若 $A\in\mathbf{R}^{n\times n}$ 为对称正定矩阵，则存在唯一的对角元素均为正的下三角矩阵 $G$ , 使得 $A=GG^\mathrm{T}$ , 这样的分解称为对称正定矩阵的 Cholesky 分解.

证明根据定理3.4，由 $A$ 是对称正定矩阵，存在唯一的 $L D U$ 分解，即 $A = L D U$ 。其中 $L$ 是单位下三角矩阵， $D$ 是非奇异的对角矩阵， $U$ 是单位上三角矩阵，
由 $A$ 的对称性可得 $LDU=U^{\mathrm{T}}DL^{\mathrm{T}}$ ，按照分解的唯一性可得 $L=U^{\mathrm{T}}$ , 从而 $A =$ $\boldsymbol{LDL^T}\:.$
设 $\boldsymbol{D}=\operatorname{diag}(d_1,d_2,...,d_n),d_i\neq0,i=1,2,...,n.$ 下证 $D$ 的对角元素均为正，即 $d_i>0\:.$
由于 $L$ 是单位下三角矩阵，所以 $L^\mathrm{T}$ 是单位上三角矩阵，当然也是非奇异矩阵。故对单位坐标向量 $e_i=(0,...,0,1,0,...,0)^T$ , 存在非零向量 $x_i$ , 使得 $L^{\mathrm{T}}x_{i}=e_{i},\quad i=1,\:2,\:\cdots,\:n.$
$x_{i}^{\mathrm{T}}Ax_{i}=x_{i}^{\mathrm{T}}(LDL^{\mathrm{T}})x_{i}=(L^{\mathrm{T}}x_{i})^{\mathrm{T}}D(L^{\mathrm{T}}x_{i})=e_{i}^{\mathrm{T}}De_{i}=d_{i}\:.$ 由 $x_i^\mathrm{T}Ax_i>0$ , 从而 $d_i>0,i=1,2,...,n$ . 这就证明了 $D$ 的对角元素都为正。
记 $\mathbf{D}^{1/2}=\mathrm{diag}(\sqrt{d_1},\sqrt{d_2},\cdots,\sqrt{d_n})$ ，则有
$\mathbf{A}=\mathbf{LDL}^\mathrm{T}=\mathbf{LD}^{1/2}\mathbf{D}^{1/2}\mathbf{L}^\mathrm{T}=(\mathbf{LD}^{1/2})(\mathbf{LD}^{1/2})^\mathrm{T}.$ 记 $G=LD^{1/2}$ , 则有 $A=GG^{\mathrm{T}}$ ，其中 $L$ 是对角元大于零的下三角矩阵. 易证这个三角分解也是唯一的。

3.2 正交三角分解（QR分解）

首先回顾一下正交矩阵的概念和性质。
定义 3.2.1 若矩阵 $Q\in\mathbf{R}^{n\times n}$ , 且满足 $QQ^\mathrm{T}=Q^\mathrm{T}Q=E$ , 就称矩阵 $Q$ 为正交矩阵。
正交矩阵的性质： $(1)\:Q^{-1}=Q^{\mathrm{T}}\:;$ $(2)\:\det(Q)=\pm1\:;$ $(3) Q x$ 的长度与 $x$ 的长度相等.
下面介绍几类特殊的正交矩阵.

单位矩阵 $E$ 和置换矩阵 $P_{ij}$ (将单位矩阵的任意两行(列)交换得到的矩阵)
任意个置换矩阵的乘积仍然是置换矩阵.
旋转矩阵 $\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}$ 。二维平面中的一个向量用极坐标表示为 $w=(r\cos\phi$ , $r\sin\phi)^{\mathrm{T}}$ ，那么 $Gw=\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}\binom{r\cos\phi}{r\sin\phi}=\binom{r\cos(\theta+\phi)}{r\sin(\theta+\phi)},$ 即 $Gw$ 表示将向量 $w$ 逆时针旋转 $\theta$ 角所得到的向量.
推广到 $n{\times}n$ 的情形，形如 $G(i,j,\theta)=\begin{bmatrix}1\\&\ddots\\&&\cos\theta&&\sin\theta&&\\&&&\ddots&&\\&&-\sin\theta&&\cos\theta&\\&&&&&\ddots\\&&&&&&1\end{bmatrix}\\^i_j$
的矩阵称为 Givens 矩阵 或 Givens 变换，或称(平面)旋转矩阵(旋转变换)，其中 $\theta$ 为旋转的角度 . 显然， $G(i,j,\theta)$ 也是正交矩阵.
反射矩阵( Householder 变换) 设 $w\in\mathbb{R}^n$ , 且 $w\|_2=1$ , 则 $P=I-2ww^\mathrm{T}$ 称为 Householder 变换，或者 Householder 矩阵. Householder 矩阵有如下性质：
(1) $P^{\mathrm{T}}=P$ , 即 $P$ 是对称阵；
(2) $PP^T=P^2=I-2ww^T-2ww^T+4w(w^Tw)w^T=I$ , 即 $P$ 是正交阵，
(3) 如图 3-1 所示，设 $w$ 是 $\mathbf{R}^3$ 上的一个单位向量，并设 $S$ 为过原点且与 $w$ 垂直的平面，则一切 $v\in\mathbf{R}^3$ 可分解成 $v=v_1+v_2$ , 其中 $v_1\in S,v_2\perp S .$ 不难验证 $Pv_1=v_1$ ， $Pv_2=-v_{2}$ ，所以 $Pv=v_{1}-v_{2}$ .
这样， $v$ 经变换后的象 $P v$ 是 $v$ 关于 S 对称的向量 . 所以，Householder 变换(图 3-1)又称镜面反射变换，Householder 矩阵也称初等反射矩阵.

应用：对 $x\neq0$ , 求 Householder 矩阵 $P$ , 使得 $Px=ke_1$ .
其中 $e_1=(1,0,...,0)^{\mathrm{T}}.$ 由正交矩阵的性质可知 $\parallel Px\parallel_2=\parallel ke_1\parallel_2=\parallel x\parallel_2$ , 即 $k =$ $\pm\parallel x\parallel_2$ . 由上面所讨论的 $P$ 的构造，有 $u=x-ke_1,\quad w=\frac u{\parallel u\parallel_2}.$ 设 $x=(x_1,...,x_n)^\mathrm{T}$ , 为了使 $x-ke_1$ 计算时不损失有效数位(一正一负可能消掉)，取
$k=-\operatorname{sign}(x_1)\parallel x\parallel_2,\quad\operatorname{sign}(x_1)=\begin{cases}\quad1,&\text{当}x_1\geqslant0,\\-1,&\text{当}x_1<0,\end{cases}$ 则 $\boldsymbol{u}=(x_1+\mathrm{sign}(x_1)\parallel\boldsymbol{x}\parallel_2,\:x_2,\:\cdots,\:x_n)^\mathrm{T}$ ，从而 $P=I-\beta u\:u^\mathrm{T}$ ，其中
$\beta=2(\parallel\boldsymbol{u}\parallel_2^2)^{-1}=2(\parallel\boldsymbol{x}\parallel_2(\parallel\boldsymbol{x}\parallel_2+| x_1|))^{-1}.$

定义 3.2.1 给定矩阵 $A\in\mathbf{R}^{n\times n}$ , 若存在 正交矩阵 $Q\in\mathbf{R}^{n\times n}$ 和 上三角矩阵 $R\in\mathbf{R}^{n\times n}$ 使得 $A = QR$ , 这种分解称为矩阵的一个正交三角分解，又称 $QR$ 分解 .

定理 3.2.2 设 $A\in\mathbf{R}^{n\times n}$ , 则存在正交阵 $Q$ , 使得 $A = QR$ , 其中 $R$ 为上三角阵 .

证明构造性证明 . 首先，考虑 $A$ 的第一列 $a_1=(a_{11},a_{21},...,a_{n1})^T$ , 可找到 Householder 矩阵 $P_1$ , 使得 $P_1a_1$ 的元素除了第 1 个以外都为零. 同理，找到 $P_{2}$ 使得 $P_{2}P_{1}A$ 的第 2 列对角元以下元素为零，而第一列对角元以下元素与 $P_1\mathbf{A}$ 一样是零.依次这样下去，可以得到 $P_{n-1}P_{n-2}...P_1A=R\:,$ 其中 $R$ 为上三角矩阵， $Q^\mathrm{T}=P_{n-1}P_{n-2}...P_1$ 为正交阵，定理证毕.

该定理保证了 $A$ 可分解为 $A = QR$ , 若 $A$ 非奇异，则 $R$ 也非奇异 . 如果不规定 $R$ 的对角元为正，则分解不是唯一的.

定理 3.2.3 设 $A\in\mathbf{R}^{n\times n}$ , 且 $A$ 非奇异，则存在正交阵 $Q$ 与上三角阵 $R$ , 使得 $A = QR,$ 且当 $R$ 的对角元均为正时，分解是唯一的.

另外，注意到 $A^{\mathrm{T}}A=(QR)^{\mathrm{T}}QR=R^{\mathrm{T}}Q^{\mathrm{T}}QR=R^{\mathrm{T}}R$ ，所以，矩阵 $A$ 正交三角分解中的 $R$ 恰好是矩阵 $A^\mathrm{T}A$ 的 Cholesky 分解中的上三角矩阵.

除了用 Householder 变换和 Givens 变换，还可以用 Gram-Schmidt 正交化 过程计算矩阵 A 的正交三角分解.
设有3个 $n$ 阶向量 $\alpha_1,\alpha_2,\alpha_3$ 线性无关，令

$~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\begin{aligned} &\beta_1=\alpha_1 \\ & \beta_2=\alpha_2-\frac{(\alpha_2,\beta_1)}{|\beta_1|^2}\beta_1 \\ & \beta_{3}=\alpha_{3}-\frac{(\alpha_{3},\beta_{2})}{|\beta_{2}|^{2}}\beta_{2}-\frac{(\alpha_{3},\beta_{1})}{|\beta_{1}|^{2}}\beta_{1} \\ \end{aligned}$
用 Schmidt 正交化方法可构造 $Q=(\frac{\beta_1}{|\beta_1|},\frac{\beta_2}{|\beta_2|},\frac{\beta_3}{|\beta_3|})$ , 可知 $Q^HQ=I$ 。而 $R=Q^HA$ 。

3.3 满秩分解

如果矩阵 $\mathbf A$ 的行(列)向量组线性无关，则称 $A$ 为行(列)满秩矩阵.

定理 3.3.1 设 $\mathbf A\in\mathbb{R}^{m\times n}$ 且 $\mathrm{rank}(\mathbf A)=r\leqslant\min\{m,n\}$ , 则可将 $\mathbf A$ 作满秩分解 $\mathbf {A=CD}$ 其中， $\mathbf C\in\mathbb{R}^{m\times r},\mathbf D\in\mathbb{R}^{r\times n}\:$ , 且 $\mathrm{rank}(\mathbf{C})=\mathrm{rank}(\mathbf{D})=r\:.$

证明因为 $\mathrm{rank}(\mathbf A)=r$ , 所以存在 $m$ 阶可逆阵 $P$ 和 $n$ 阶置换阵 $Q$ , 使得 $A=P\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}Q^\mathrm{T}.$
令 $P=(P_1,P_2)$ , 其中 $P_1$ 是 $m{\times}r$ 列满秩阵，这样
$\mathbf{A}=(\mathbf{P}_1,\:\mathbf{P}_2)\begin{pmatrix}\mathbf{E}_r&\mathbf{O}\\\mathbf{O}&\mathbf{O}\end{pmatrix}\mathbf{Q}^\mathrm{T}=(\mathbf{P}_1,\:\mathbf{O})\mathbf{Q}^\mathrm{T}=\mathbf{P}_1(\mathbf{E}_r,\:\mathbf{O})\mathbf{Q}^\mathrm{T},$ 显然，( $E_r,B)Q^\mathrm{T}$ 是行满秩的 $r{\times}n$ 阵 . 令 $\mathbf C={\mathbf{P}}_1,\mathbf D=(\mathbf E_r,\mathbf B)\mathbf Q^\mathrm{T}$ , 即得所证。

设 $C=(c_1,c_2,\cdots,c_r),D=(d_1,d_2,\cdots,d_r)$ , 则 $\mathbf A=(c_1,c_2,\cdots,c_r)\begin{pmatrix}d_1^\mathrm{T}\\d_2^\mathrm{T}\\\vdots\\d_r^\mathrm{T}\end{pmatrix}=\sum_{i=1}^rc_id_i^\mathrm{T},$
这也是 $\mathbf A$ 的满秩分解的一种表示形式.

例 3.3.2 $\begin{aligned}&A=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_3,\boldsymbol{\alpha}_4,\boldsymbol{\alpha}_5)=\begin{bmatrix}2&1&6&1&0\\3&2&10&1&0\\2&3&10&-1&3\\4&4&16&0&1\end{bmatrix}\end{aligned}$ ，求矩阵 $A$ 的满秩分解 .
解先用行初等变换把矩阵 $A$ 化为简化阶梯形 $\begin{vmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\\0&0&0&0&0\\\end{vmatrix}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\boldsymbol{\beta}_3,\boldsymbol{\beta}_4,\boldsymbol{\beta}_5)=\begin{pmatrix}\boldsymbol{D}\\\boldsymbol{O}\end{pmatrix}$ , 其中， $\boldsymbol{D}=\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix}$ 是 $3 \times 5$ 行满秩阵.显然 $\beta_1,\beta_2,\beta_5$ 线性无关，且 $p_3=2\boldsymbol{\beta}_1+2\boldsymbol{\beta}_2,\boldsymbol{\beta}_4=\boldsymbol{\beta}_1-\boldsymbol{\beta}_2$ .由于行初等变换保持矩阵列向量组的线性组合关系，因此 $\alpha_1,\alpha_2,\alpha_5$ 线性无关，且 $\boldsymbol{\alpha}_3=2\boldsymbol{\alpha}_1+2\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_4=\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2$ . 取 $\boldsymbol C=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\boldsymbol{\alpha}_5)=\begin{vmatrix}2&1&0\\3&2&0\\2&3&3\\4&4&1\end{vmatrix}$ , 显然 $C$ 是 $4 \times 3$ 列满秩阵，
且满足 $\begin{aligned} \boldsymbol{CD} &=(\boldsymbol{\alpha}_{1}\:,\:\boldsymbol{\alpha}_{2}\:,\:\boldsymbol{\alpha}_{5}\:)\:\begin{bmatrix}1&0&2&1&0\\0&1&2&-1&0\\0&0&0&0&1\end{bmatrix} \\ &=(\alpha_1,\alpha_2,2\alpha_1+2\alpha_2,\alpha_1-\alpha_2,\alpha_5) \\ &=(\alpha_1,\alpha_2,\alpha_3,\alpha_4,\alpha_5)\\ &=\mathbf{A} \end{aligned}$

进一步有
定理 3.3.3 (正交满秩分解定理) 设 $\boldsymbol A$ 是 $m\times n$ 阶实矩阵， $\boldsymbol A$ 的秩为 $r$ , 则存在 $m\times r$ 列正交矩阵 $\boldsymbol Q$ 和行满秩的 $r\times n$ 阵 $\boldsymbol R$ , 使 $\boldsymbol {A=QR}$ . 其中， $\boldsymbol Q$ 列正交的含义为 $\boldsymbol {Q^\mathrm{T}Q=E_r}.$

证明由定理 3.3.1 知存在列满秩的 $m\times r$ 阵 $\boldsymbol C$ 和行满秩的 $r\times n$ 阵 $\boldsymbol D$ , 使 $\boldsymbol {A=CD}$ .
于是 $\boldsymbol {C^\mathrm{T}C}$ 是秩为 $r$ 的 $r$ 阶对称方阵，且易证 $\boldsymbol {C^\mathrm{T}C}$ 是正定阵，这样存在 $r$ 阶对称正定阵 $\boldsymbol S$ , 使 $\boldsymbol {C^{\mathrm{T}}C=S^{2}}$ ,
且 $\boldsymbol {(CS^{-1})^{\mathrm{T}}(CS^{-1})=S^{-1}C^{\mathrm{T}}CS^{-1}=S^{-1}S^{2}S^{-1}=E_{r}}\:.$
记 $\boldsymbol {Q=CS^{-1},R=SD}$ , 则 $\boldsymbol Q$ 是 $m\times r$ 列正交阵且 $\boldsymbol R$ 是行满秩的 $r\times n$ 阵，显然有 $\boldsymbol {QR=CS^{-1}SD=CD=A}\:.$

3.4 谱分解

矩阵的谱分解仅对某一类特殊的矩阵讨论。通常将可以酉对角化的矩阵称为正规矩阵，即有下面的定义.

定义 3.4.1 设矩阵 $\boldsymbol A\in\mathbb{C}^{n\times n}$ , 若 $\boldsymbol{AA^{\mathrm{H}}=A^{\mathrm{H}}A}$ , 则称 $\boldsymbol A$ 为 正规矩阵.

实对称矩阵、实反对称矩阵、正交矩阵、Hermite 矩阵、反 Hermite 矩阵、西矩阵都是正规矩阵。另外，若 $\boldsymbol A$ 为正规矩阵，则与 $\boldsymbol A$ 酉相似的矩阵仍为正规矩阵.

正规矩阵具有许多好的数学特性.

定理 3.4.2 设矩阵 $\boldsymbol A\in\mathbb{C}^{n\times n}$ ,则 $\boldsymbol A$ 是正规矩阵当且仅当 $\boldsymbol A$ 有 $n$ 个两两正交的单位特征向量。

证首先 $\lambda _{1}X$ 可得 $A^{H}X= \overline {\lambda }_{1}X$ .
引理1： $AX=0\Leftrightarrow||AX||=0\Leftrightarrow X^{H}AA^{H}X=0\Leftrightarrow A^{H}X=0$
引理2：若 $A$ 正规 $AX=\lambda X\Rightarrow A^{H}X=\overline{\lambda}X$
只需证 $\lambda I) ^HX= 0$ ,
由 $\lambda I) X= 0\Rightarrow\left((A-\lambda I)X\right)^H(A-\lambda I)X=0\Rightarrow X^H(A-\lambda I)^H(A-\lambda I)X=0$
由于 $A-\lambda I$ 正规， $\lambda I) ^H( A- \lambda I) = ( A- \lambda I) ( A- \lambda I) ^H$
即有 $X^H((A-\lambda I)^H)^H(A-\lambda I)^HX=0$
$\Rightarrow((A-\lambda I)^HX)^H(A-\lambda I)^HX=|(A-\lambda I)^HX|^2=0$
$\Rightarrow(A-\lambda I)^HX=0\Rightarrow(A^H-\overline{\lambda}I)X=0\Rightarrow A^HX=\overline{\lambda}X$
故结论得证，若 $A$ 正规，则 $AX=\lambda X\Longleftrightarrow A^HX=\overline{\lambda}X$
其中，若 $\lambda(A)=\{\lambda_1,\cdots,\lambda_n\}$ ,则 $\lambda(A^H)=\{\overline{\lambda_1},\cdots,\overline{\lambda_n}\}$
下证 $Ax=\lambda_{1}x,Ay=\lambda_{2}y$ ， $x^{H}y=0$
$y^{H}Ax=y^{H}\lambda_1x=\lambda_1y^{H}x$
$A^Hy)^{H}x$ $=(\overline{\lambda}_2y)^{H}x$ $=(\overline{\lambda}_2y)^{H}x$
$=\lambda_{2}y^{H}x$

定理 3.4.3 设矩阵 $\boldsymbol A=(a_{ij})_{n\times n}\in\mathbb{C}^{n\times n}, \lambda_1,\lambda_2,...,\lambda_n$ 为 $\widehat{\boldsymbol A}$ 的 $n$ 个特征值，则 $\boldsymbol A$ 是正规矩阵当且仅当 $\sum_{i=1}^n\mid\lambda_i\mid^2=\sum_{i,j=1}^n\mid a_{ij}\mid^2$ .

定义 3.4.5 给定矩阵 $\boldsymbol A\in\mathbb{R}^{n\times n}$ 是一个正规矩阵，若存在可逆矩阵 $\boldsymbol P\in\mathbb{R}^{n\times n}$ 和对角矩阵 $\boldsymbol{\Lambda}=\operatorname{diag}\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\in\mathbf{R}^{n\times n}$ 使得
$A=P\Lambda P^{-1}\:,$

这种分解称为矩阵 $\boldsymbol A$ 的一个谱分解. 其中，特征值 $\{\lambda_1,\lambda_2,\cdots,\lambda_n\}$ 也称为矩阵 $\boldsymbol A$ 的谱.

设 $\boldsymbol P=(\boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n),\boldsymbol P^{-1}=(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\cdots,\boldsymbol{\beta}_n)^{\mathrm{T}}$ ,
则 $\boldsymbol{a}_1,\boldsymbol{a}_2,\cdots,\boldsymbol{a}_n$ 线无， $\boldsymbol{\beta}_{1},\boldsymbol{\beta}_{2},\:\cdots,\boldsymbol{\beta}_{n}$ 也线无，且 $A\boldsymbol{\alpha}_i=\lambda_i\boldsymbol{\alpha}_i,A^\mathrm{T}\boldsymbol{\beta}_i=\lambda_i\boldsymbol{\beta}_i(1\leqslant i\leqslant n,$ 这样 $\begin{aligned} \boldsymbol{A}& =\boldsymbol{P}\begin{pmatrix}\lambda_{1}&&&\\&\lambda_{2}&&\\&&\ddots&\\&&&\lambda_{n}\end{pmatrix}\boldsymbol{P}^{-1} =(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n)\begin{bmatrix}\lambda_1&&&\\&\lambda_2&&\\&&\ddots&\\&&&\lambda_n\end{bmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\end{pmatrix} \\ &=\sum_{k=1}^n\lambda_i\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}. \end{aligned}$
这是矩阵 $\boldsymbol A$ 的谱分解的另一种表达形式. 如果记 $\boldsymbol {A_i=\alpha_i\beta_i^\mathrm{T}}$ , 则可写成 $\mathbf{A}=\sum_{k=1}^n\lambda_i\mathbf{A}_i.$

其中， $\boldsymbol A_i$ 有性质：(1) $\boldsymbol {A_{i}^{2}=A_{i}}(i=1,2,\cdots,n)\:;$ (2) $\mathbf{A}_{i}\mathbf{A}_{j}=\boldsymbol{O}(i\neq j) ;$ (3) $\sum_{i=1}^{n}\boldsymbol {A_{i}=E}.$

$\begin{gathered} \boldsymbol P=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n), \boldsymbol P^{-1}=\begin{bmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\vdots\\\boldsymbol{\beta}_{n}^{\mathrm{T}}\end{bmatrix}, \text{则} ~\boldsymbol{P^{-1}P}=\begin{bmatrix}\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_1^\mathrm{T}\boldsymbol{\alpha}_n\\\vdots&&\vdots\\\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_1&\cdots&\boldsymbol{\beta}_n^\mathrm{T}\boldsymbol{\alpha}_n\end{bmatrix}=\boldsymbol{E},\\ \boldsymbol{P}\boldsymbol{P}^{-1}=\boldsymbol{\alpha}_1\boldsymbol{\beta}_1^\mathrm{T}+\cdots+\boldsymbol{\alpha}_n\boldsymbol{\beta}_n^\mathrm{T}=\boldsymbol{E}. ~\text{于是}~ \boldsymbol {\beta_{i}^{\mathrm{T}}\alpha_{i}=1},\quad\boldsymbol{\beta_{i}^{\mathrm{T}}\alpha_{j}=0}\quad(i\neq j),\quad\sum_{k=1}^{n}\boldsymbol{\alpha_{i}\beta_{i}^{\mathrm{T}}=E}.\\ \text{再结合 }\mathbf{A}_i=\boldsymbol{\alpha}_i\boldsymbol{\beta}_i^\mathrm{T}\text{ 就得到上面三个性质}. \end{gathered}$

例 3.4.6 设 $\mathbf{A}=\left[\begin{array}{ccc}4&-6&0\\2&-3&0\\-2&3&2\end{array}\right]$ , 求 $\mathbf{A}$ 的谱分解.

先求 $\mathbf{A}$ 的特征值和特征向量. $\mid\lambda E-A\mid=$ $=\lambda(\lambda-2)\left(\lambda-1\right)$ , 因此， $\mathbf{A}$ 有3个不同的特征值 $\lambda_1=0,\lambda_2=1,\lambda_3=2$ , 故 $\mathbf{A}$ 可对角化，从而 $\mathbf{A}$ 的谱分解一定存在.容易求出它们对应的特征向量为
$p_{1}=(3,\:2,\:0)^{\mathrm{T}},\quad p_{2}=(2,\:1,\:1)^{\mathrm{T}},\quad p_{3}=(0,\:0,\:1)^{\mathrm{T}}.$ 令 $\boldsymbol P=(p_1,p_2,p_3)=\begin{bmatrix}3&2&0\\[0.3em]2&1&0\\[0.3em]0&1&1\end{bmatrix}$ ，显然 , $P$ 可逆,且易求得 $\boldsymbol{P}^{-1}=\begin{pmatrix}\boldsymbol{\beta}_{1}^{\mathrm{T}}\\\boldsymbol{\beta}_{2}^{\mathrm{T}}\\\boldsymbol{\beta}_{3}^{\mathrm{T}}\end{pmatrix}=\begin{pmatrix}-1&2&0\\2&-3&0\\-2&3&1\end{pmatrix}$ 。
这样有
$\begin{aligned} &\boldsymbol{A}=\boldsymbol{P}\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\boldsymbol{P}^{-1}=(\boldsymbol{p}_1,\boldsymbol{p}_2,\boldsymbol{p}_3)\begin{pmatrix}0&&\\&1&\\&&2\end{pmatrix}\begin{pmatrix}\boldsymbol{\beta}_1^\mathrm{T}\\\boldsymbol{\beta}_2^\mathrm{T}\\\boldsymbol{\beta}_3^\mathrm{T}\end{pmatrix}=p_2\beta_2^\mathrm{T}+2p_3\beta_3^\mathrm{T}, \end{aligned}$

3.5 奇异值分解

前面已知，正规矩阵可以酉对角化，因此其对应的线性变换具有很好的性质 . 现考虑 非正规矩阵.

定义3.5.1 设 $\boldsymbol A\in\mathbb{R}^{m\times n}$ , 半正定矩阵 $\boldsymbol {A^\mathrm{T}A}$ 的 $n$ 个特征值记为 $\lambda_i,i=1,2,...,n$ , 显然 $\lambda_i\geqslant0$ . 称 $\lambda_i$ 的算术平方根 $\sigma_i=\sqrt{\lambda_i}$ ( $i = 1, 2, ..., n)$ 为矩阵 $\boldsymbol A$ 的 奇异值.

定理 3.5.2 (奇异值分解定理) 设矩阵 $\boldsymbol A\in\mathbb{R}^{m\times n}$ 的奇异值中有 $r$ 个不等于零，记为 $\sigma_1\geqslant$ $\sigma_2\geq\cdots\geq\sigma_r>0.$ 它们构成的 $r$ 阶对角阵记为 $D=\operatorname{diag}\{\sigma_1,\sigma_2,\cdots,\sigma_r\}$ . 令 $m\times n$ 阶矩阵 $\boldsymbol{\Sigma}=\binom{\boldsymbol{D~O}}{\boldsymbol{O~O}}$ , 则存在正交矩阵 $\boldsymbol U\in\mathbb{R}^{m\times m},\:\boldsymbol V\in\mathbb{R}^{n\times n}$ ,使
$A=\boldsymbol U\boldsymbol{\Sigma}\boldsymbol V^{\mathrm{T}}.$

证明因为 $\boldsymbol {A^\mathrm{T}A}$ 是 $n$ 阶半正定矩阵，必存在 $n$ 阶正交矩阵 $\boldsymbol V$ 使

$~~~~~~~~~~~~~~~~~~~~~~~~~V^\mathrm{T}(A^\mathrm{T}A)V=\begin{bmatrix}\lambda_1&&&&&&\\&\ddots&&&&&\\&&\lambda_r&&&&\\&&&0&&&\\&&&&\ddots&\\&&&&&0\end{bmatrix}=\begin{bmatrix}D^2&O\\O&O\end{bmatrix}_{n\times n}$

将 $\mathbf{V}$ 分块 $\mathbf V=(\mathbf V_1,\mathbf V_2)\:,$ 其中 $\mathbf{V}_1\in\mathbf{R}^{n\times r},\mathbf{V}_2\in\mathbf{R}^{n\times(n-r)}$ .
因为 $\mathbf{V}$ 是正交阵，所以 $\mathbf{V} _1^{\mathrm{T} }\mathbf{V} _1= \mathbf{E} _r, \mathbf{V} _1^{\mathrm{T} }\mathbf{V} _2= \mathbf{O}$ , 则 $~\begin{bmatrix}\boldsymbol{V}_1^\mathrm{T}\\\boldsymbol{V}_2^\mathrm{T}\end{bmatrix}\boldsymbol{A}^\mathrm{T}\boldsymbol{A}(\boldsymbol{V}_1,\boldsymbol{V}_2)=\begin{bmatrix}\boldsymbol{D}^2&\boldsymbol{O}\\\boldsymbol{O}&\boldsymbol{O}\end{bmatrix}$
得 $\begin{array}{l}V_1^TA^TAV_1=D^2,\\V_2^TA^TAV_2=0,\end{array}$ ，即 $AV_2=0$ .
而 $A=AVV^\mathrm{T}=A(V_1,\:V_2)\begin{pmatrix}V_1^\mathrm{T}\\V_2^\mathrm{T}\end{pmatrix}=AV_1V_1^\mathrm{T}+AV_2V_2^\mathrm{T}=AV_1V_1^\mathrm{T}=AV_1D^{-1}DV_1^\mathrm{T}=U_1DV_1^\mathrm{T}$

其中 $U_{1}=AV_{1}D^{-1},U_{1}\in\mathbf{R}^{m\times r}$ , 且 $U_1^\mathrm{T}U_1=D^{-1}V_1^\mathrm{T}A^\mathrm{T}AV_1D^{-1}=D^{-1}D^2D^{-1}=E_r$ .
将 $U_1$ 扩张成正交矩阵 $U=(U_1,U_2)$ , 则有
$\begin{gathered} \boldsymbol{U\Sigma}\boldsymbol{V}^{\mathrm{T}}=(\boldsymbol{U}_{1},\boldsymbol{U}_{2})\binom{\boldsymbol{D~~O}}{\boldsymbol{O~~O}} \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\\boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix}\\ =(\boldsymbol{U}_{1}\boldsymbol{D}, \boldsymbol{O}) \begin{pmatrix}\boldsymbol{V}_{1}^{\mathrm{T}}\\ \boldsymbol{V}_{2}^{\mathrm{T}}\end{pmatrix} \\ =\boldsymbol{U_1DV_1^\mathrm{T}}=\boldsymbol A. \end{gathered}$

pp猪经纪人

关注

13
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
【矩阵论】3.矩阵分解

3 矩阵分解3.1 三角分解（ LU 分解）定义 3.1.1 给定矩阵 A∈Rn×nA\in\mathbb{R}^{n\times n}A∈Rn×n , 若存在下三角矩阵 L∈Rn×nL\in\mathbb{R}^{n\times n}L∈Rn×n 和上三角矩阵 U∈Rn×nU\in\mathbb{R}^{n\times n}U∈Rn×n 使得 A=LUA=LUA=LU , 这种分解称为矩阵的一个三角分解，又称 LULULU 分解。（Gauss消去法，待定系数法）定理 3.1.2 给定矩阵 A∈Rn
复制链接

扫一扫