矩阵分解与特征值

1. Cholesky分解

(1) LDU分解

A = ( a i j ) A=(a_{ij}) A=(aij)是n阶矩阵,则当且仅当 A A A的顺序主子式 Δ k ≠ 0 ( k = 1 , 2 , . . . , n − 1 ) \Delta_k\neq0(k=1,2,...,n-1) Δk=0(k=1,2,...,n1)时, A A A可唯一的分解为 A = L D U A=LDU A=LDU,其中 L L L为单位下三角矩阵, U U U为单位上三角矩阵, D D D为对角阵。

证明:对矩阵 A A A做初等行变换变成一个上三角矩阵,其变换矩阵就是一个单位下三角矩阵,设 P A = U 1 PA=U_1 PA=U1,令 D = d i a g ( d 1 , . . . , d n ) D=diag(d_1,...,d_n) D=diag(d1,...,dn),其中 d i , 1 ≤ i ≤ n d_i,1\leq i\leq n di,1in U 1 U_1 U1的对角线元素,则存在一个单位上三角阵 U U U使得 U 1 = D U U_1=DU U1=DU,令 L = P − 1 L=P^{-1} L=P1仍是一个单位下三角阵,即有 A = L D U A=LDU A=LDU

(2) Cholesky分解

A = ( a i j ) A=(a_{ij}) A=(aij)是n阶对称正定矩阵,则存在一个下三角矩阵 G G G,使得 A = G G ′ A=GG' A=GG

证明: A A A是n阶对称正定矩阵, Δ k > 0 ( k = 1 , 2 , . . . , n ) \Delta_k>0(k=1,2,...,n) Δk>0(k=1,2,...,n),有唯一的LDU分解 A = L D U A=LDU A=LDU,其中 D = d i a g ( d 1 , . . . , d n ) D=diag(d_1,...,d_n) D=diag(d1,...,dn) d i > 0 ( i = 1 , 2 , . . . , n ) d_i>0(i=1,2,...,n) di>0(i=1,2,...,n)(事实上, d i = Δ i Δ i − 1 d_i=\frac{\Delta_i}{\Delta_{i-1}} di=Δi1Δi),令 D ~ = d i a g ( d 1 , . . . , d n ) \tilde{D}=diag(\sqrt{d_1},...,\sqrt{d_n}) D~=diag(d1 ,...,dn ),则有 A = L D ~ 2 U A=L\tilde{D}^2U A=LD~2U
A ′ = A A'=A A=A得, L D ~ 2 U = U ′ D ~ 2 L ′ L\tilde{D}^2U=U'\tilde{D}^2L' LD~2U=UD~2L
再由分解的唯一性得: L = U ′ , U = L ′ L=U',U=L' L=U,U=L
G = L D ~ G=L\tilde{D} G=LD~,则 G G G为下三角阵,且有 A = L D ~ 2 L ′ = ( L D ~ ) ( L D ~ ) ′ = G G ′ A=L\tilde{D}^2L'=(L\tilde{D})(L\tilde{D})'=GG' A=LD~2L=(LD~)(LD~)=GG

(3) Cholesky分解的统计应用

对任意的 k × 1 k\times1 k×1维向量 μ \mu μ k × k k\times k k×k维对称正定矩阵 V V V,设 V V V有Cholesky分解 V = G G ′ V=GG' V=GG,则可通过以下方式产生一个服从 k k k为正态分布 N ( μ , V ) \mathcal{N}(\mu,V) N(μ,V) k k k维随机向量: ξ = μ + L η \xi=\mu+L\eta ξ=μ+Lη,其中 η \eta η为服从标准正态分布的随机向量。

2. 特征值分解

对任意的 n × n n\times n n×n对称矩阵 A A A A A A具有 n n n个线性无关的特征向量,则存在一个正交阵 T T T使得 A = T D T ′ A=TDT' A=TDT,其中 D = d i a g ( λ 1 , λ 2 , . . . , λ n ) D=diag(\lambda_1,\lambda_2,...,\lambda_n) D=diag(λ1,λ2,...,λn) λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn A A A的特征值。

证明:设 A A A的对应于 { λ 1 , λ 2 , . . . , λ n } \{\lambda_1,\lambda_2,...,\lambda_n\} {λ1,λ2,...,λn} n n n个线性无关的单位特征向量 { v 1 , v 2 , . . . , v n } \{v^1,v^2,...,v^n\} {v1,v2,...,vn},令 T = [ v 1 , v 2 , . . . , v n ] T=[v^1,v^2,...,v^n] T=[v1,v2,...,vn],则 T T T为正交阵,
A T = [ A v 1 , . . . , A v n ] = [ λ v 1 , . . . , λ v n ] = [ v 1 , . . . , v n ] d i a g ( λ 1 , λ 2 , . . . , λ n ) = T d i a g ( λ 1 , λ 2 , . . . , λ n ) \begin{aligned} AT&=[Av^1,...,Av^n]\\&=[\lambda v^1,...,\lambda v_n]\\&=[v^1,...,v^n]diag(\lambda_1,\lambda_2,...,\lambda_n)\\&=Tdiag(\lambda_1,\lambda_2,...,\lambda_n) \end{aligned} AT=[Av1,...,Avn]=[λv1,...,λvn]=[v1,...,vn]diag(λ1,λ2,...,λn)=Tdiag(λ1,λ2,...,λn)

A = T d i a g ( λ 1 , λ 2 , . . . , λ n ) T − 1 = T d i a g ( λ 1 , λ 2 , . . . , λ n ) T ′ A=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T^{-1}=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T' A=Tdiag(λ1,λ2,...,λn)T1=Tdiag(λ1,λ2,...,λn)T

(1) 矩阵的幂次

对任意的非负定矩阵 A A A及数 r ∈ [ 0 , 1 ] r\in[0,1] r[0,1],可定义 A r = T d i a g ( λ 1 r , . . . , λ n r ) T ′ A^r=Tdiag(\lambda_1^{r},...,\lambda_n^{r})T' Ar=Tdiag(λ1r,...,λnr)T。特别地,当 r = 1 / 2 r=1/2 r=1/2时, D 1 / 2 = d i a g ( λ 1 1 / 2 , . . . , λ n 1 / 2 ) D^{1/2}=diag(\lambda_1^{1/2},...,\lambda_n^{1/2}) D1/2=diag(λ11/2,...,λn1/2),称 A 1 / 2 = T D 1 / 2 T ′ A^{1/2}=TD^{1/2}T' A1/2=TD1/2T为矩阵 A A A的平方根。

(i) ( A 1 / 2 ) 2 = A (A^{1/2})^2=A (A1/2)2=A,记 ( A − 1 ) 1 / 2 (A^{-1})^{1/2} (A1)1/2 A − 1 / 2 A^{-1/2} A1/2,有 A − 1 / 2 = ( A 1 / 2 ) − 1 A^{-1/2}=(A^{1/2})^{-1} A1/2=(A1/2)1
(ii) L o ¨ w n e r − H e i n z L\ddot{o}wner-Heinz Lo¨wnerHeinz不等式

对任意的满足 A ≥ B ≥ 0 A\geq B\geq0 AB0的矩阵 A A A B B B,数 r ∈ [ 0 , 1 ] r\in[0,1] r[0,1],有 A r ≥ B r A^r\geq B^r ArBr

证明:
在这里插入图片描述
在这里插入图片描述

(iii)(simultaneously diagonalizable)设有 n n n阶矩阵 A A A B B B,若存在正交矩阵 S S S使得 A = S D S ′ A=SDS' A=SDS B = S E S ′ B=SES' B=SES,则称矩阵 A A A B B B可同时对角化。可对角化矩阵 A A A B B B可交换当且仅当 A A A B B B可同时对角化。

证明:假设 A A A B B B可同时对角化,即存在正交矩阵 S S S使得 A = S D S ′ A=SDS' A=SDS B = S E S ′ B=SES' B=SES
A B = S D S ′ S E S ′ = S D E S ′ = S E D S ′ = S E S ′ S D S ′ = B A AB=SDS'SES'=SDES'=SEDS'=SES'SDS'=BA AB=SDSSES=SDES=SEDS=SESSDS=BA
假设矩阵 A A A B B B可交换,设 A = S D S ′ A=SDS' A=SDS B = T E T ′ B=TET' B=TET,令 B 1 = S ′ A S B1=S'AS B1=SAS,由 A A A B B B可交换推知 D D D B 1 B_1 B1可交换,倘若说明 D D D B 1 B_1 B1可同时对角化,则可推知 A A A B B B可同时对角化,因此不妨假设 A A A为对角阵。

B = [ b i j ] B=[b_{ij}] B=[bij] λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn A A A的特征值,由 A B = B A AB=BA AB=BA λ i b i j = b i j λ j \lambda_ib_{ij}=b_{ij}\lambda_j λibij=bijλj,即有 ( λ i − λ j ) b i j = 0 (\lambda_i-\lambda_j)b_{ij}=0 (λiλj)bij=0,进而推知当 λ i ≠ λ j \lambda_i\neq\lambda_j λi=λj时, b i j = 0 b_{ij}=0 bij=0。设 A A A具有如下分块形式:
A = [ λ 1 I 1 0 . . . 0 0 λ 2 I 2 . . . 0 . . . . . . . . . . . . 0 0 . . . λ k I k ] A=\left[\begin{matrix} \lambda_1I_1&0&...&0\\ 0&\lambda_2I_2&...&0\\ ...&...&...&...&\\ 0&0&...&\lambda_kI_k \end{matrix}\right] A=λ1I10...00λ2I2...0............00...λkIk
相应的 B B B具有如下形式:
B = [ B 1 0 . . . 0 0 B 2 . . . 0 . . . . . . . . . . . . 0 0 . . . B k ] B=\left[\begin{matrix} B_1&0&...&0\\ 0&B_2&...&0\\ ...&...&...&...&\\ 0&0&...&B_k \end{matrix}\right] B=B10...00B2...0............00...Bk
由矩阵 B B B可对角化知存在正交阵 T i T_i Ti使得 B i = T i E i T ′ B_i=T_iE_iT' Bi=TiEiT,令
T = [ T 1 0 . . . 0 0 T 2 . . . 0 . . . . . . . . . . . . 0 0 . . . T k ] , E = [ E 1 0 . . . 0 0 E 2 . . . 0 . . . . . . . . . . . . 0 0 . . . E k ] T=\left[\begin{matrix} T_1&0&...&0\\ 0&T_2&...&0\\ ...&...&...&...&\\ 0&0&...&T_k \end{matrix}\right],E=\left[\begin{matrix} E_1&0&...&0\\ 0&E_2&...&0\\ ...&...&...&...&\\ 0&0&...&E_k \end{matrix}\right] T=T10...00T2...0............00...Tk,E=E10...00E2...0............00...Ek
则有 B = T E T ′ B=TET' B=TET A = T T ′ A=TT' A=TT,即 A A A B B B可同时对角化。

(2) 统计应用

对任意的 k × 1 k\times1 k×1维向量 μ \mu μ k × k k\times k k×k维对称正定矩阵 V V V,可通过以下方式产生一个服从 k k k为正态分布 N ( μ , V ) \mathcal{N}(\mu,V) N(μ,V) k k k维随机向量: ξ = μ + V 1 / 2 η \xi=\mu+V^{1/2}\eta ξ=μ+V1/2η,其中 η \eta η为服从标准正态分布的随机向量。

3. 特征值

(1) 对任意正整数 p p p,矩阵 A p A^p Ap的特征值为 λ 1 p , . . . , λ n p \lambda_1^p,...,\lambda_n^p λ1p,...,λnp;因此当 A ≥ 0 A\geq0 A0时, λ m a x ( A p ) = { λ m a x ( A ) } p \lambda_{max}(A^p)=\{\lambda_{max}(A)\}^p λmax(Ap)={λmax(A)}p λ m i n ( A p ) = { λ m i n ( A ) } p \lambda_{min}(A^p)=\{\lambda_{min}(A)\}^p λmin(Ap)={λmin(A)}p

(2) t r ( A ) = λ 1 + . . . + λ n tr(A)=\lambda_1+...+\lambda_n tr(A)=λ1+...+λn

(3) ∣ A ∣ = λ 1 . . . λ n |A|=\lambda_1...\lambda_n A=λ1...λn

证明:多项式 ∣ λ E − A ∣ |\lambda E-A| λEA的常数项为 ( − 1 ) n ∣ A ∣ (-1)^n|A| (1)nA,而由多项式根与系数的关系知,多项式的常数项为 ( − 1 ) n λ 1 . . . λ n (-1)^n\lambda_1...\lambda_n (1)nλ1...λn,故得证。

(4)乘积矩阵的特征值:

(i)矩阵 A A A B B B均为 n n n阶方阵:

A A A B B B均为对称阵,则 ∣ A B − λ E ∣ = ∣ ( A B − λ E ) ′ ∣ = ∣ B ′ A ′ − λ E ∣ |AB-\lambda E|=|(AB-\lambda E)'|=|B'A'-\lambda E| ABλE=(ABλE)=BAλE,所以 A B AB AB B A BA BA有相同的特征值;

A A A B B B至少有一个矩阵可逆,不妨设 A A A可逆,则 ∣ A B − λ E ∣ = ∣ A − 1 ∣ ∣ A B − λ E ∣ ∣ A ∣ = ∣ A − 1 ( A B − λ E ) A ∣ = ∣ B A − λ E ∣ |AB-\lambda E|=|A^{-1}||AB-\lambda E||A|=|A^{-1}(AB-\lambda E)A|=|BA-\lambda E| ABλE=A1ABλEA=A1(ABλE)A=BAλE A B AB AB B A BA BA有相同的特征值;

A A A B B B均不可逆,
在这里插入图片描述
在这里插入图片描述
所以 ∣ λ E − A B ∣ = ∣ λ E − B A ∣ |\lambda E-AB|=|\lambda E-BA| λEAB=λEBA A B AB AB B A BA BA有相同的特征值;

(ii)矩阵 A A A B B B均不是方阵,设 A A A m × n m\times n m×n阶矩阵, B B B n × m n\times m n×m阶矩阵:
在这里插入图片描述
(5)(Weyl’s perturbation theorem)设对称矩阵 A A A B B B的特征值分别为 λ 1 ≥ . . . ≥ λ k \lambda_1\geq...\geq\lambda_k λ1...λk μ 1 ≥ . . . ≥ μ k \mu_1\geq...\geq\mu_k μ1...μk,则有:
max ⁡ 1 ≤ i ≤ k ∣ λ i − μ i ∣ ≤ ∣ ∣ A − B ∣ ∣ \max_{1\leq i\leq k}|\lambda_i-\mu_i|\leq||A-B|| 1ikmaxλiμiAB

Weyl’s perturbation theorem的一个应用:

设有对称矩阵序列 A n A_n An满足 ∣ ∣ A n − A ∣ ∣ → 0 , n → ∞ ||A_n-A||\rightarrow0,n\rightarrow\infty AnA0,n,其中 A A A为对称阵,则当 n → ∞ n\rightarrow\infty n时, A n A_n An的特征值趋于 A A A的特征值。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值