1. Cholesky分解
(1) LDU分解
设 A = ( a i j ) A=(a_{ij}) A=(aij)是n阶矩阵,则当且仅当 A A A的顺序主子式 Δ k ≠ 0 ( k = 1 , 2 , . . . , n − 1 ) \Delta_k\neq0(k=1,2,...,n-1) Δk=0(k=1,2,...,n−1)时, A A A可唯一的分解为 A = L D U A=LDU A=LDU,其中 L L L为单位下三角矩阵, U U U为单位上三角矩阵, D D D为对角阵。
证明:对矩阵 A A A做初等行变换变成一个上三角矩阵,其变换矩阵就是一个单位下三角矩阵,设 P A = U 1 PA=U_1 PA=U1,令 D = d i a g ( d 1 , . . . , d n ) D=diag(d_1,...,d_n) D=diag(d1,...,dn),其中 d i , 1 ≤ i ≤ n d_i,1\leq i\leq n di,1≤i≤n为 U 1 U_1 U1的对角线元素,则存在一个单位上三角阵 U U U使得 U 1 = D U U_1=DU U1=DU,令 L = P − 1 L=P^{-1} L=P−1仍是一个单位下三角阵,即有 A = L D U A=LDU A=LDU。
(2) Cholesky分解
设 A = ( a i j ) A=(a_{ij}) A=(aij)是n阶对称正定矩阵,则存在一个下三角矩阵 G G G,使得 A = G G ′ A=GG' A=GG′。
证明:
A
A
A是n阶对称正定矩阵,
Δ
k
>
0
(
k
=
1
,
2
,
.
.
.
,
n
)
\Delta_k>0(k=1,2,...,n)
Δk>0(k=1,2,...,n),有唯一的LDU分解
A
=
L
D
U
A=LDU
A=LDU,其中
D
=
d
i
a
g
(
d
1
,
.
.
.
,
d
n
)
D=diag(d_1,...,d_n)
D=diag(d1,...,dn)且
d
i
>
0
(
i
=
1
,
2
,
.
.
.
,
n
)
d_i>0(i=1,2,...,n)
di>0(i=1,2,...,n)(事实上,
d
i
=
Δ
i
Δ
i
−
1
d_i=\frac{\Delta_i}{\Delta_{i-1}}
di=Δi−1Δi),令
D
~
=
d
i
a
g
(
d
1
,
.
.
.
,
d
n
)
\tilde{D}=diag(\sqrt{d_1},...,\sqrt{d_n})
D~=diag(d1,...,dn),则有
A
=
L
D
~
2
U
A=L\tilde{D}^2U
A=LD~2U。
由
A
′
=
A
A'=A
A′=A得,
L
D
~
2
U
=
U
′
D
~
2
L
′
L\tilde{D}^2U=U'\tilde{D}^2L'
LD~2U=U′D~2L′,
再由分解的唯一性得:
L
=
U
′
,
U
=
L
′
L=U',U=L'
L=U′,U=L′,
令
G
=
L
D
~
G=L\tilde{D}
G=LD~,则
G
G
G为下三角阵,且有
A
=
L
D
~
2
L
′
=
(
L
D
~
)
(
L
D
~
)
′
=
G
G
′
A=L\tilde{D}^2L'=(L\tilde{D})(L\tilde{D})'=GG'
A=LD~2L′=(LD~)(LD~)′=GG′。
(3) Cholesky分解的统计应用
对任意的 k × 1 k\times1 k×1维向量 μ \mu μ、 k × k k\times k k×k维对称正定矩阵 V V V,设 V V V有Cholesky分解 V = G G ′ V=GG' V=GG′,则可通过以下方式产生一个服从 k k k为正态分布 N ( μ , V ) \mathcal{N}(\mu,V) N(μ,V)的 k k k维随机向量: ξ = μ + L η \xi=\mu+L\eta ξ=μ+Lη,其中 η \eta η为服从标准正态分布的随机向量。
2. 特征值分解
对任意的 n × n n\times n n×n对称矩阵 A A A, A A A具有 n n n个线性无关的特征向量,则存在一个正交阵 T T T使得 A = T D T ′ A=TDT' A=TDT′,其中 D = d i a g ( λ 1 , λ 2 , . . . , λ n ) D=diag(\lambda_1,\lambda_2,...,\lambda_n) D=diag(λ1,λ2,...,λn), λ 1 , λ 2 , . . . , λ n \lambda_1,\lambda_2,...,\lambda_n λ1,λ2,...,λn为 A A A的特征值。
证明:设
A
A
A的对应于
{
λ
1
,
λ
2
,
.
.
.
,
λ
n
}
\{\lambda_1,\lambda_2,...,\lambda_n\}
{λ1,λ2,...,λn}的
n
n
n个线性无关的单位特征向量
{
v
1
,
v
2
,
.
.
.
,
v
n
}
\{v^1,v^2,...,v^n\}
{v1,v2,...,vn},令
T
=
[
v
1
,
v
2
,
.
.
.
,
v
n
]
T=[v^1,v^2,...,v^n]
T=[v1,v2,...,vn],则
T
T
T为正交阵,
A
T
=
[
A
v
1
,
.
.
.
,
A
v
n
]
=
[
λ
v
1
,
.
.
.
,
λ
v
n
]
=
[
v
1
,
.
.
.
,
v
n
]
d
i
a
g
(
λ
1
,
λ
2
,
.
.
.
,
λ
n
)
=
T
d
i
a
g
(
λ
1
,
λ
2
,
.
.
.
,
λ
n
)
\begin{aligned} AT&=[Av^1,...,Av^n]\\&=[\lambda v^1,...,\lambda v_n]\\&=[v^1,...,v^n]diag(\lambda_1,\lambda_2,...,\lambda_n)\\&=Tdiag(\lambda_1,\lambda_2,...,\lambda_n) \end{aligned}
AT=[Av1,...,Avn]=[λv1,...,λvn]=[v1,...,vn]diag(λ1,λ2,...,λn)=Tdiag(λ1,λ2,...,λn)
A = T d i a g ( λ 1 , λ 2 , . . . , λ n ) T − 1 = T d i a g ( λ 1 , λ 2 , . . . , λ n ) T ′ A=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T^{-1}=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T' A=Tdiag(λ1,λ2,...,λn)T−1=Tdiag(λ1,λ2,...,λn)T′
(1) 矩阵的幂次
对任意的非负定矩阵 A A A及数 r ∈ [ 0 , 1 ] r\in[0,1] r∈[0,1],可定义 A r = T d i a g ( λ 1 r , . . . , λ n r ) T ′ A^r=Tdiag(\lambda_1^{r},...,\lambda_n^{r})T' Ar=Tdiag(λ1r,...,λnr)T′。特别地,当 r = 1 / 2 r=1/2 r=1/2时, D 1 / 2 = d i a g ( λ 1 1 / 2 , . . . , λ n 1 / 2 ) D^{1/2}=diag(\lambda_1^{1/2},...,\lambda_n^{1/2}) D1/2=diag(λ11/2,...,λn1/2),称 A 1 / 2 = T D 1 / 2 T ′ A^{1/2}=TD^{1/2}T' A1/2=TD1/2T′为矩阵 A A A的平方根。
(i)
(
A
1
/
2
)
2
=
A
(A^{1/2})^2=A
(A1/2)2=A,记
(
A
−
1
)
1
/
2
(A^{-1})^{1/2}
(A−1)1/2为
A
−
1
/
2
A^{-1/2}
A−1/2,有
A
−
1
/
2
=
(
A
1
/
2
)
−
1
A^{-1/2}=(A^{1/2})^{-1}
A−1/2=(A1/2)−1。
(ii)
L
o
¨
w
n
e
r
−
H
e
i
n
z
L\ddot{o}wner-Heinz
Lo¨wner−Heinz不等式
对任意的满足 A ≥ B ≥ 0 A\geq B\geq0 A≥B≥0的矩阵 A A A、 B B B,数 r ∈ [ 0 , 1 ] r\in[0,1] r∈[0,1],有 A r ≥ B r A^r\geq B^r Ar≥Br。
证明:
(iii)(simultaneously diagonalizable)设有 n n n阶矩阵 A A A、 B B B,若存在正交矩阵 S S S使得 A = S D S ′ A=SDS' A=SDS′、 B = S E S ′ B=SES' B=SES′,则称矩阵 A A A、 B B B可同时对角化。可对角化矩阵 A A A、 B B B可交换当且仅当 A A A、 B B B可同时对角化。
证明:假设
A
A
A、
B
B
B可同时对角化,即存在正交矩阵
S
S
S使得
A
=
S
D
S
′
A=SDS'
A=SDS′、
B
=
S
E
S
′
B=SES'
B=SES′,
A
B
=
S
D
S
′
S
E
S
′
=
S
D
E
S
′
=
S
E
D
S
′
=
S
E
S
′
S
D
S
′
=
B
A
AB=SDS'SES'=SDES'=SEDS'=SES'SDS'=BA
AB=SDS′SES′=SDES′=SEDS′=SES′SDS′=BA
假设矩阵
A
A
A、
B
B
B可交换,设
A
=
S
D
S
′
A=SDS'
A=SDS′、
B
=
T
E
T
′
B=TET'
B=TET′,令
B
1
=
S
′
A
S
B1=S'AS
B1=S′AS,由
A
A
A、
B
B
B可交换推知
D
D
D、
B
1
B_1
B1可交换,倘若说明
D
D
D、
B
1
B_1
B1可同时对角化,则可推知
A
A
A、
B
B
B可同时对角化,因此不妨假设
A
A
A为对角阵。
设
B
=
[
b
i
j
]
B=[b_{ij}]
B=[bij],
λ
1
,
λ
2
,
.
.
.
,
λ
n
\lambda_1,\lambda_2,...,\lambda_n
λ1,λ2,...,λn为
A
A
A的特征值,由
A
B
=
B
A
AB=BA
AB=BA知
λ
i
b
i
j
=
b
i
j
λ
j
\lambda_ib_{ij}=b_{ij}\lambda_j
λibij=bijλj,即有
(
λ
i
−
λ
j
)
b
i
j
=
0
(\lambda_i-\lambda_j)b_{ij}=0
(λi−λj)bij=0,进而推知当
λ
i
≠
λ
j
\lambda_i\neq\lambda_j
λi=λj时,
b
i
j
=
0
b_{ij}=0
bij=0。设
A
A
A具有如下分块形式:
A
=
[
λ
1
I
1
0
.
.
.
0
0
λ
2
I
2
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
0
0
.
.
.
λ
k
I
k
]
A=\left[\begin{matrix} \lambda_1I_1&0&...&0\\ 0&\lambda_2I_2&...&0\\ ...&...&...&...&\\ 0&0&...&\lambda_kI_k \end{matrix}\right]
A=⎣⎢⎢⎡λ1I10...00λ2I2...0............00...λkIk⎦⎥⎥⎤
相应的
B
B
B具有如下形式:
B
=
[
B
1
0
.
.
.
0
0
B
2
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
0
0
.
.
.
B
k
]
B=\left[\begin{matrix} B_1&0&...&0\\ 0&B_2&...&0\\ ...&...&...&...&\\ 0&0&...&B_k \end{matrix}\right]
B=⎣⎢⎢⎡B10...00B2...0............00...Bk⎦⎥⎥⎤
由矩阵
B
B
B可对角化知存在正交阵
T
i
T_i
Ti使得
B
i
=
T
i
E
i
T
′
B_i=T_iE_iT'
Bi=TiEiT′,令
T
=
[
T
1
0
.
.
.
0
0
T
2
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
0
0
.
.
.
T
k
]
,
E
=
[
E
1
0
.
.
.
0
0
E
2
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
0
0
.
.
.
E
k
]
T=\left[\begin{matrix} T_1&0&...&0\\ 0&T_2&...&0\\ ...&...&...&...&\\ 0&0&...&T_k \end{matrix}\right],E=\left[\begin{matrix} E_1&0&...&0\\ 0&E_2&...&0\\ ...&...&...&...&\\ 0&0&...&E_k \end{matrix}\right]
T=⎣⎢⎢⎡T10...00T2...0............00...Tk⎦⎥⎥⎤,E=⎣⎢⎢⎡E10...00E2...0............00...Ek⎦⎥⎥⎤
则有
B
=
T
E
T
′
B=TET'
B=TET′,
A
=
T
T
′
A=TT'
A=TT′,即
A
A
A、
B
B
B可同时对角化。
(2) 统计应用
对任意的 k × 1 k\times1 k×1维向量 μ \mu μ、 k × k k\times k k×k维对称正定矩阵 V V V,可通过以下方式产生一个服从 k k k为正态分布 N ( μ , V ) \mathcal{N}(\mu,V) N(μ,V)的 k k k维随机向量: ξ = μ + V 1 / 2 η \xi=\mu+V^{1/2}\eta ξ=μ+V1/2η,其中 η \eta η为服从标准正态分布的随机向量。
3. 特征值
(1) 对任意正整数 p p p,矩阵 A p A^p Ap的特征值为 λ 1 p , . . . , λ n p \lambda_1^p,...,\lambda_n^p λ1p,...,λnp;因此当 A ≥ 0 A\geq0 A≥0时, λ m a x ( A p ) = { λ m a x ( A ) } p \lambda_{max}(A^p)=\{\lambda_{max}(A)\}^p λmax(Ap)={λmax(A)}p, λ m i n ( A p ) = { λ m i n ( A ) } p \lambda_{min}(A^p)=\{\lambda_{min}(A)\}^p λmin(Ap)={λmin(A)}p。
(2) t r ( A ) = λ 1 + . . . + λ n tr(A)=\lambda_1+...+\lambda_n tr(A)=λ1+...+λn。
(3) ∣ A ∣ = λ 1 . . . λ n |A|=\lambda_1...\lambda_n ∣A∣=λ1...λn。
证明:多项式 ∣ λ E − A ∣ |\lambda E-A| ∣λE−A∣的常数项为 ( − 1 ) n ∣ A ∣ (-1)^n|A| (−1)n∣A∣,而由多项式根与系数的关系知,多项式的常数项为 ( − 1 ) n λ 1 . . . λ n (-1)^n\lambda_1...\lambda_n (−1)nλ1...λn,故得证。
(4)乘积矩阵的特征值:
(i)矩阵 A A A、 B B B均为 n n n阶方阵:
若 A A A、 B B B均为对称阵,则 ∣ A B − λ E ∣ = ∣ ( A B − λ E ) ′ ∣ = ∣ B ′ A ′ − λ E ∣ |AB-\lambda E|=|(AB-\lambda E)'|=|B'A'-\lambda E| ∣AB−λE∣=∣(AB−λE)′∣=∣B′A′−λE∣,所以 A B AB AB与 B A BA BA有相同的特征值;
若 A A A、 B B B至少有一个矩阵可逆,不妨设 A A A可逆,则 ∣ A B − λ E ∣ = ∣ A − 1 ∣ ∣ A B − λ E ∣ ∣ A ∣ = ∣ A − 1 ( A B − λ E ) A ∣ = ∣ B A − λ E ∣ |AB-\lambda E|=|A^{-1}||AB-\lambda E||A|=|A^{-1}(AB-\lambda E)A|=|BA-\lambda E| ∣AB−λE∣=∣A−1∣∣AB−λE∣∣A∣=∣A−1(AB−λE)A∣=∣BA−λE∣, A B AB AB与 B A BA BA有相同的特征值;
若
A
A
A、
B
B
B均不可逆,
所以
∣
λ
E
−
A
B
∣
=
∣
λ
E
−
B
A
∣
|\lambda E-AB|=|\lambda E-BA|
∣λE−AB∣=∣λE−BA∣,
A
B
AB
AB与
B
A
BA
BA有相同的特征值;
(ii)矩阵
A
A
A、
B
B
B均不是方阵,设
A
A
A为
m
×
n
m\times n
m×n阶矩阵,
B
B
B为
n
×
m
n\times m
n×m阶矩阵:
(5)(Weyl’s perturbation theorem)设对称矩阵
A
A
A、
B
B
B的特征值分别为
λ
1
≥
.
.
.
≥
λ
k
\lambda_1\geq...\geq\lambda_k
λ1≥...≥λk、
μ
1
≥
.
.
.
≥
μ
k
\mu_1\geq...\geq\mu_k
μ1≥...≥μk,则有:
max
1
≤
i
≤
k
∣
λ
i
−
μ
i
∣
≤
∣
∣
A
−
B
∣
∣
\max_{1\leq i\leq k}|\lambda_i-\mu_i|\leq||A-B||
1≤i≤kmax∣λi−μi∣≤∣∣A−B∣∣
Weyl’s perturbation theorem的一个应用:
设有对称矩阵序列 A n A_n An满足 ∣ ∣ A n − A ∣ ∣ → 0 , n → ∞ ||A_n-A||\rightarrow0,n\rightarrow\infty ∣∣An−A∣∣→0,n→∞,其中 A A A为对称阵,则当 n → ∞ n\rightarrow\infty n→∞时, A n A_n An的特征值趋于 A A A的特征值。