矩阵论专栏:专栏(文章按照顺序排序)
Schur分解、特征值分解、奇异值分解是三种联系十分紧密的矩阵分解,它们的关系是 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD,也就是说由Schur分解可以推导出EVD,再推导出SVD。本篇博客和上篇博客遵循主线 S c h u r → E V D → S V D Schur\rightarrow{}EVD\rightarrow{}SVD Schur→EVD→SVD,且对各个矩阵分解的相关理论应用(能够解决矩阵论中的哪些问题)进行介绍。
本篇博客讨论特征值分解和奇异值分解的相关内容。上篇博客(链接)讨论的是Schur分解以及利用Schur分解能够解决的若干问题。注意,引理1-5以及定理1-15在上篇博客中。
本文内容以线性代数知识为基础(主要是特征值和相似的知识):
矩阵论(零):线性代数基础知识整理(1)——逆矩阵、初等变换、满秩分解
矩阵论(零):线性代数基础知识整理(2)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换
矩阵论(零):线性代数基础知识整理(5)——特征值与相似
- 特征值分解EVD
- 正规矩阵与EVD
- EVD得到矩阵的特征值和特征向量
- EVD的构造方法
- EVD用于求矩阵的逼近
- 实正规矩阵的正交相似拟对角化(拓展内容)
- 奇异值分解SVD
- SVD的存在性定理
- SVD的构造方法(简介)
- SVD的性质
- SVD用于求矩阵的逼近
- SVD在推荐系统中的应用
特征值分解EVD(正规矩阵)
与Schur分解不同的是,特征值分解(又叫谱分解)要求将方阵酋对角化,这比schur分解的要求更高(Schur分解只是酋相似上三角化)。实际上,只有一类特殊的方阵才能进行特征值分解,这类特殊的方阵是正规矩阵。下面介绍特征值分解EVD。
-
定义(谱分解):设有n阶方阵A。若存在n阶酋矩阵U和对角矩阵 Σ \Sigma Σ使得 A = U Σ U H A=U\Sigma{U^H} A=UΣUH,则称 A = U Σ U H A=U\Sigma{U^H} A=UΣUH是A的一个谱分解
-
定义(正规矩阵):若n阶方阵A满足 A H A = A A H A^HA=AA^H AHA=AAH,则称A是正规矩阵
【注1】容易验证Hermite矩阵(共轭对称矩阵)、反Hermite矩阵、实对称矩阵、实反对称矩阵、酋矩阵、实正交矩阵等都是正规矩阵。正规矩阵实际上是内积空间上的正规变换在给定标准正交基下的矩阵,具体见链接。
【注2】这里给出正规矩阵 A A A的一个性质: N ( A ) = N ( A H ) , R ( A ) = R ( A H ) N(A)=N(A^H),R(A)=R(A^H) N(A)=N(AH),R(A)=R(AH),其中 N ( ∙ ) , R ( ∙ ) N(\bullet),R(\bullet) N(∙),R(∙)分别表示零空间和列空间。虽然这个性质本文后面没有用到,但却是正规矩阵的一个常见性质。证明很简单: A x = 0 ⟹ x H A H A x = 0 ⟹ x H A A H x = 0 ⟹ ∣ ∣ A H x ∣ ∣ 2 2 = 0 ⟹ A H x = 0 Ax=0\implies x^HA^HAx=0\implies x^HAA^Hx=0\implies||A^Hx||_2^2=0\implies A^Hx=0 Ax=0⟹xHAHAx=0⟹xHAAHx=0⟹∣∣AHx∣∣22=0⟹AHx=0,因此 N ( A ) = N ( A H ) N(A)=N(A^H) N(A)=N(AH),两端取正交补就有 R ( A H ) = R ( A ) R(A^H)=R(A) R(AH)=R(A)。 -
引理6:任意一个上三角矩阵S,若S是正规矩阵,则S必然是对角矩阵
证明:(对S的阶数n进行归纳)
当n=1时,S本身就是对角矩阵。假定结论对n-1成立,现证明结论对n也成立。设 S = [ S 1 b 0 H a ] S=\begin{bmatrix}S_1&b\\0^H&a\end{bmatrix} S=[S10Hba],其中a是一个标量, S 1 S_1 S1是一个n-1阶上三角阵。计算可得 S H S = [ S 1 H S 1 S 1 H b b H S 1 b H b + a ˉ a ] S^HS=\begin{bmatrix}S_1^HS_1&S_1^Hb\\b^HS_1&b^Hb+\bar{a}a\end{bmatrix} SHS=[S1HS1bHS1S1HbbHb+aˉa], S S H = [ S 1 S 1 H + b b H a ˉ b a b H a a ˉ ] SS^H=\begin{bmatrix}S_1S_1^H+bb^H&\bar{a}b\\ab^H&a\bar{a}\end{bmatrix} SSH=[S1S1H+bbHabHaˉbaaˉ],由 S H S = S S H S^HS=SS^H SHS=SSH得 b H b + a ˉ a = a a ˉ b^Hb+\bar{a}a=a\bar{a} bHb+aˉa=aaˉ,故 b H b = ∣ ∣ b ∣ ∣ 2 = 0 b^Hb=||b||^2=0 bHb=∣∣b∣∣2=0,故 b = 0 b=0 b=0,故 S 1 S 1 H + b b H = S 1 S 1 H = S 1 H S 1 S_1S_1^H+bb^H=S_1S_1^H=S_1^HS_1 S1S1H+bbH=S1S1H=S1HS1,即 S 1 S_1 S1是正规矩阵,由归纳假设知 S 1 S_1 S1是对角矩阵。则 S = [ S 1 0 0 H a ] S=\begin{bmatrix}S_1&0\\0^H&a\end{bmatrix} S=[S10H0a]是对角矩阵,得证。 -
定理16:n阶复方阵A酋相似于一个对角矩阵的充要条件为A是正规矩阵
证明:
必要性:若A酋相似于一个对角矩阵,即存在酋矩阵U和对角矩阵 Σ \Sigma Σ使得 A = U Σ U H A=U\Sigma{U^H} A=UΣUH,则 A H A = U Σ ‾ U H U Σ U H = U Σ ‾ Σ U H A^HA=U\overline{\Sigma}U^HU\Sigma{U^H}=U\overline{\Sigma}\Sigma{U^H} AHA=UΣUHUΣUH=UΣΣUH, A A H = U Σ U H U Σ ‾ U H = U Σ Σ ‾ U H AA^H=U\Sigma{U^H}U\overline{\Sigma}U^H=U\Sigma{}\overline{\Sigma}U^H AAH=UΣUHUΣUH=UΣΣUH,注意到 Σ ‾ Σ = Σ Σ ‾ \overline{\Sigma}\Sigma=\Sigma\overline{\Sigma} ΣΣ=ΣΣ,故 A H A = A A H A^HA=AA^H AHA=AAH。
充分性:设A的Schur分解为 A = P T P H A=PTP^H A=PTPH,其中P是酋矩阵,T是上三角矩阵。由A是正规矩阵,将A代入 A H A = A A H A^HA=AA^H AHA=AAH得 P T H T P H = P T T H P H PT^HTP^H=PTT^HP^H PTHTPH=PTTHPH,故 T H T = T T H T^HT=TT^H THT=TTH,即上三角矩阵T是正规矩阵。于是由引理6知T是对角矩阵,故A酋相似于对角矩阵T。证毕。
EVD得到矩阵的特征值和特征向量
定理16说明仅正规矩阵可进行谱分解。在探讨谱分解有何用处之前,我们先认识一下谱分解究竟是怎样的,看看分解出来的对角矩阵是什么,以及那个酋矩阵到底是什么:
- 定理17:设正规矩阵A的谱分解为 A = U Σ U H A=U\Sigma U^H A=UΣUH,则 λ \lambda λ是A的特征值的充要条件为 λ \lambda λ在 Σ \Sigma Σ的主对角线上,且A的每个特征值的代数重数等于其在 Σ \Sigma Σ的主对角线上出现的次数
- 定理18:设n阶正规矩阵A的谱分解为 A = U Σ U H A=U\Sigma U^H A=UΣUH,且 Σ = d i a g ( λ 1 , . . . , λ n ) \Sigma=diag(\lambda_1,...,\lambda_n) Σ=diag(λ1,...,λn), U = [ u 1 ⋯ u n ] U=\begin{bmatrix}u_1&\cdots&u_n\end{bmatrix} U=[u1⋯un],则 u i u_i ui是A对应于特征值 λ i \lambda_i λi的特征向量,且 u 1 , . . . , u n u_1,...,u_n u1,...,un是 C n C^n Cn的标准正交基
证明:由 A = U Σ U H A=U\Sigma U^H A=UΣUH得 A U = U Σ AU=U\Sigma AU=UΣ,故 A u i = λ i u i , i = 1 , . . . , n Au_i=\lambda_iu_i,i=1,...,n Aui=λiui,i=1,...,n,即 u i u_i ui是A对应于特征值 λ i \lambda_i λi的特征向量。因为U是酋矩阵,所以 u 1 , . . . , u n u_1,...,u_n u1,...,un是 C n C^n Cn的标准正交基。
【推论】n阶正规矩阵有n个相互正交的特征向量
【推论】n阶正规矩阵的任意特征值的几何重数与代数重数相等
上面两个定理的结论解释了“特征值分解”这个名称的来源,之所以称之为特征值分解,是因为其既分解出了特征值,还分解出了对应的特征向量。特征值分解还表明,正规矩阵的特征值和特征向量包含了原矩阵的“全部信息”,因此我们可以通过一定的方法利用特征值和特征向量重构出原矩阵。
EVD的构造方法
实际上,我们已经知道U的列向量组是A的单位正交特征向量组,那么怎么求出A的n个单位正交的特征向量呢?我们容易保证属于同一特征值的特征向量间的正交性(只要求出该特征值对应的特征子空间的标准正交基即可),但是,如何保证不同特征值的特征向量间的正交性呢?实际上,正规矩阵本身的性质就保证了这一点。下面我们就来看看正规矩阵的性质:
- 定理19:设A是正规矩阵,则 A A A和 A H A^H AH的特征值互为共轭,且 A A A对应于 λ \lambda λ的特征子空间 N ( λ I − A ) N(\lambda I-A) N(λI−A)与 A H A^H AH对应于 λ ˉ \bar{\lambda} λˉ的特征子空间 N ( λ ˉ I − A H ) N(\bar\lambda I-A^H) N(λˉI−AH)成立 N ( λ I − A ) = N ( λ ˉ I − A H ) N(\lambda I-A)=N(\bar\lambda I-A^H) N(λI−A)=N(λˉI−AH)
证明:
将A谱分解得 A = U Σ U H A=U\Sigma U^H A=UΣUH,则 A H = U Σ ‾ U H A^H=U\overline{\Sigma}U^H AH=UΣUH。因为 Σ \Sigma Σ和 Σ ‾ \overline{\Sigma} Σ主对角线上对应的元素互为共轭,所以A和 A H A^H AH的特征值互为共轭。又 A U = U Σ AU=U\Sigma AU=UΣ, A H U = U Σ ‾ A^HU=U\overline \Sigma AHU=UΣ,且U的列向量组是正交向量组,所以 A A A的特征子空间 N ( λ I − A ) N(\lambda I-A) N(λI−A)和 A H A^H AH的特征子空间 N ( λ ˉ I − A H ) N(\bar\lambda I-A^H) N(λˉI−AH)有同一组正交基,故结论成立。 - 定理20:设A是正规矩阵,则A对应于不同特征值的特征向量是正交的
证明:
设 λ \lambda λ和 μ \mu μ是A的两个不同特征值, x x x和 y y y分别是A的对应于 λ \lambda λ和 μ \mu μ的特征向量,即 λ ≠ μ , A x = λ x , A y = μ y , x ≠ 0 , y ≠ 0 \lambda \neq \mu,Ax=\lambda x,Ay=\mu y,x\neq 0,y\neq 0 λ=μ,Ax=λx,Ay=μy,x=0,y=0。由定理19知 μ ˉ \bar \mu μˉ是 A H A^H AH的特征值,且由 y ∈ N ( μ I − A ) , N ( μ I − A ) = N ( μ ˉ I − A H ) y\in N(\mu I-A),N(\mu I-A)=N(\bar\mu I-A^H) y∈N(μI−A),N(μI−A)=N(μˉI−AH)知 y ∈ N ( μ ˉ I − A H ) y\in{N(\bar\mu I-A^H)} y∈N(μˉI−AH),故 A H y = μ ˉ y A^Hy=\bar \mu y AHy=μˉy。 μ ˉ x H y = x H ( μ ˉ y ) = x H A H y = ( A x ) H y = λ ˉ x H y \bar \mu x^Hy=x^H(\bar \mu y )=x^HA^Hy=(Ax)^Hy=\bar \lambda x^Hy μˉxHy=xH(μˉy)=xHAHy=(Ax)Hy=λˉxHy故 ( μ ˉ − λ ˉ ) x H y = 0 (\bar \mu-\bar \lambda)x^Hy=0 (μˉ−λˉ)xHy=0,由 λ ≠ μ \lambda \neq \mu λ=μ知 x H y = 0 x^Hy=0 xHy=0,即 x x x和 y y y是正交的,得证。
上面的定理说明只要求出A的每个特征值的特征子空间的标准正交基,那么所有的这些基向量一定两两正交。于是,我们有如下方法来求正规矩阵的特征值分解:
注意,之所以我们构造出的矩阵U是酋矩阵,是因为U的列向量组是单位正交的(其中对应于同一特征值的特征向量两两正交,对应于不同特征值的特征向量也两两正交)。而这样的 U U U一定可以保证构造出了 A A A的一个谱分解:
因为 U H A U = [ u 11 H . . . u s r s H ] [ A u 11 . . . A u s r s ] = [ u 11 H . . . u s r s H ] [ λ 1 u 11 . . . λ s u s r s ] = [ λ 1 I r 1 ⋱ λ s I r s ] U^HAU=\begin{bmatrix}u^H_{11}\\...\\u^H_{s_{r_s}}\end{bmatrix}\begin{bmatrix}Au_{11}&...&Au_{s_{r_s}}\end{bmatrix}\\=\begin{bmatrix}u^H_{11}\\...\\u^H_{s_{r_s}}\end{bmatrix}\begin{bmatrix}\lambda_1u_{11}&...&\lambda_su_{s_{r_s}}\end{bmatrix}=\begin{bmatrix}\lambda_1I_{r_1}&&\\&\ddots&\\&&\lambda_sI_{r_s}\end{bmatrix} UHAU=⎣⎡u11H...usrsH⎦⎤[Au11...Ausrs]=⎣⎡u11H...usrsH⎦⎤[