正规矩阵
设
A
A
A是复数域上的
n
n
n阶方阵,如果有
A
A
H
=
A
H
A
AA^H=A^HA
AAH=AHA
则称
A
A
A为正规矩阵
如果
A
A
A是实属域上的
n
n
n阶方阵,且有
A
A
T
=
A
T
A
AA^T=A^TA
AAT=ATA
则称
A
A
A为实正规矩阵
舒尔(Schur)定理
任何一个
n
n
n阶矩阵都酉相似与一个上三角矩阵,即存在一个
n
n
n阶酉矩阵
U
U
U和一个上三角矩阵
R
R
R,使得
U
H
A
U
=
T
U^HAU=T
UHAU=T
其中
T
T
T的主对角元素是
A
A
A的特征值
证明:
懒了,和之前证实对称矩阵必可相似对角化差不多
酉相似对角化充要条件
设 A ∈ C n × n A\in C^{n\times n} A∈Cn×n,则 A A A酉相似对角化的充要条件是 A A A是正规矩阵
证明:
充分性:
根据舒尔定理,存在酉矩阵
U
U
U,使得
U
H
A
U
=
T
U^HAU=T
UHAU=T为上三角矩阵,且其对角元素是
A
A
A的特征值,于是有
T
T
H
=
(
U
H
A
U
)
(
U
H
A
U
)
H
=
U
H
A
U
U
H
A
H
U
=
U
H
A
A
H
U
=
U
H
A
H
A
U
=
U
H
A
H
U
U
H
A
U
=
(
U
H
A
U
)
H
(
U
H
A
U
)
=
T
H
T
\begin{aligned} TT^H&=(U^HAU)(U^HAU)^H\\ &=U^HAUU^HA^HU\\ &=U^HAA^HU\\ &=U^HA^HAU\\ &=U^HA^HUU^HAU\\ &=(U^HAU)^H(U^HAU)\\ &=T^HT \end{aligned}
TTH=(UHAU)(UHAU)H=UHAUUHAHU=UHAAHU=UHAHAU=UHAHUUHAU=(UHAU)H(UHAU)=THT
(
T
T
H
)
i
i
=
∑
j
=
i
n
∣
t
i
j
∣
2
,
(
T
H
T
)
i
i
=
∑
j
=
1
i
∣
t
j
i
∣
2
(TT^H)_{ii}=\sum_{j=i}^{n}\left|t_{ij}\right|^2,(T^HT)_{ii}=\sum_{j=1}^{i}\left|t_{ji}\right|^2
(TTH)ii=∑j=in∣tij∣2,(THT)ii=∑j=1i∣tji∣2
因为
(
T
T
H
)
i
i
=
(
T
H
T
)
i
i
(TT^H)_{ii}=(T^HT)_{ii}
(TTH)ii=(THT)ii
所以
t
i
j
=
0
(
i
≠
j
)
t_{ij}=0(i\neq j)
tij=0(i=j)
所以
T
T
T是一个对角矩阵
所以
U
H
A
U
=
d
i
a
g
(
t
11
,
⋯
,
t
n
n
)
U^HAU=diag(t_{11},\cdots,t_{nn})
UHAU=diag(t11,⋯,tnn)
必要性:
设
A
A
A酉相似于对角矩阵
Λ
\Lambda
Λ
U
H
A
U
=
Λ
=
d
i
a
g
(
λ
1
,
λ
2
,
⋯
,
λ
n
)
U^HAU=\Lambda=diag(\lambda_1,\lambda_2,\cdots,\lambda_n)
UHAU=Λ=diag(λ1,λ2,⋯,λn)
Λ
H
=
d
i
a
g
(
λ
‾
1
,
⋯
,
λ
‾
n
)
\Lambda^H=diag(\overline{\lambda}_1,\cdots,\overline{\lambda}_n)
ΛH=diag(λ1,⋯,λn)
对角矩阵是可交换的,即
Λ
Λ
H
=
Λ
H
Λ
U
H
A
A
H
U
=
U
H
A
A
U
A
A
H
=
A
H
A
\begin{aligned} \Lambda\Lambda^H &=\Lambda^H \Lambda\\ U^HAA^HU &=U^HAAU\\ AA^H&=A^HA \end{aligned}
ΛΛHUHAAHUAAH=ΛHΛ=UHAAU=AHA
推论
A A A是正规矩阵,若 A A A是三角矩阵,则 A A A是对角矩阵
定理1
设 A ∈ C n × n A\in \mathbb{C}^{n\times n} A∈Cn×n,则 A A A为正规矩阵 ⇔ \Leftrightarrow ⇔ A A A有 n n n个两两正交的单位特征向量
推论
正规矩阵属于不同特征值的特征向量两两正交
定理2
设
A
∈
C
n
×
n
A\in \mathbb{C}^{n\times n}
A∈Cn×n,
λ
1
,
⋯
,
λ
n
\lambda_1,\cdots,\lambda_n
λ1,⋯,λn为
A
A
A的特征值,则
(1)舒尔不等式:
∑
i
=
1
n
∣
λ
i
∣
2
≤
∑
i
,
j
=
1
n
∣
a
i
j
∣
2
\sum_{i=1}^{n}\left|\lambda_i\right|^2\le \sum_{i,j=1}^{n}\left|a_{ij}\right|^2
∑i=1n∣λi∣2≤∑i,j=1n∣aij∣2
(2)
A
A
A是正规矩阵
⇔
∑
i
=
1
n
∣
λ
i
∣
2
=
∑
i
,
j
=
1
n
∣
a
i
j
∣
2
\Leftrightarrow \sum_{i=1}^{n}\left|\lambda_i\right|^2=\sum_{i,j=1}^{n}\left|a_{ij}\right|^2
⇔∑i=1n∣λi∣2=∑i,j=1n∣aij∣2
证明:
(1)
由舒尔定理
U
H
A
U
=
B
U^HAU=B
UHAU=B为上三角矩阵,
b
i
i
=
λ
i
(
i
=
1
,
2
,
⋯
,
n
)
b_{ii}=\lambda_i(i=1,2,\cdots,n)
bii=λi(i=1,2,⋯,n)
由
U
H
A
A
H
U
=
B
B
H
U^HAA^HU=BB^H
UHAAHU=BBH
因为酉相似,所以迹相等
∑
i
=
1
n
∣
λ
i
∣
2
=
∑
i
=
1
n
∣
b
i
i
∣
2
≤
∑
i
,
j
=
1
n
∣
b
i
j
∣
2
=
∑
i
,
j
=
1
n
∣
a
i
j
∣
2
\sum_{i=1}^{n}\left|\lambda_i\right|^2=\sum_{i=1}^{n}\left|b_{ii}\right|^2\le \sum_{i,j=1}^{n}\left|b_{ij}\right|^2=\sum_{i,j=1}^{n}\left|a_{ij}\right|^2
i=1∑n∣λi∣2=i=1∑n∣bii∣2≤i,j=1∑n∣bij∣2=i,j=1∑n∣aij∣2
(2)
A
A
A是正规矩阵,所以可以酉相似对角化,所以
b
i
j
=
0
(
i
≠
0
)
b_{ij}=0(i\neq 0)
bij=0(i=0)
所以成立
正规矩阵的谱分解
设
A
A
A是正规矩阵,则存在酉矩阵
U
U
U使得
U
H
A
U
=
d
i
a
g
(
λ
1
,
⋯
,
λ
n
)
U^HAU=diag(\lambda_1,\cdots,\lambda_n)
UHAU=diag(λ1,⋯,λn)
A
=
U
d
i
a
g
(
λ
1
,
⋯
,
λ
n
)
U
H
A=Udiag(\lambda_1,\cdots,\lambda_n)U^H
A=Udiag(λ1,⋯,λn)UH
令
U
=
(
α
1
,
⋯
,
α
n
)
U=(\alpha_1,\cdots,\alpha_n)
U=(α1,⋯,αn),则
A
=
(
α
1
,
⋯
,
α
n
)
d
i
a
g
(
λ
1
,
⋯
,
λ
n
)
(
α
1
H
⋮
α
n
)
=
λ
1
α
1
α
1
H
+
⋯
+
λ
n
α
n
α
n
H
\begin{aligned} A&=(\alpha_1,\cdots,\alpha_n)diag(\lambda_1,\cdots,\lambda_n)\begin{pmatrix} \alpha_1^H\\ \vdots\\ \alpha_n \end{pmatrix}\\ &=\lambda_1\alpha_1\alpha_1^H+\cdots+\lambda_n\alpha_n\alpha_n^H \end{aligned}
A=(α1,⋯,αn)diag(λ1,⋯,λn)⎝⎜⎛α1H⋮αn⎠⎟⎞=λ1α1α1H+⋯+λnαnαnH
其中
λ
1
,
⋯
,
λ
n
\lambda_1,\cdots,\lambda_n
λ1,⋯,λn为
A
A
A的特征值,
α
1
,
⋯
,
α
n
\alpha_1,\cdots,\alpha_n
α1,⋯,αn为其对应的两两正交的单位特征向量
故称为正规矩阵
A
A
A的谱分解或特征(值)分解
如果把系数相同的放在一起(0特征值对应的项去掉),然后把系数提出来,得到
A
=
λ
1
P
1
+
⋯
+
λ
s
P
s
A=\lambda_1P_1+\cdots+\lambda_sP_s
A=λ1P1+⋯+λsPs
其中
λ
1
,
⋯
,
λ
s
\lambda_1,\cdots,\lambda_s
λ1,⋯,λs为
A
A
A的互不相同的非零特征值,由于
(
α
i
α
i
H
)
H
=
α
i
α
i
H
(
1
≤
i
≤
n
)
(
α
i
α
i
H
)
(
α
j
α
j
H
)
=
0
(
1
≤
i
≠
j
≤
n
)
(
α
i
α
i
H
)
2
=
α
i
α
i
H
(
1
≤
i
≤
n
)
(\alpha_i\alpha_i^H)^H=\alpha_i\alpha_i^H(1\le i\le n)\\ (\alpha_i\alpha_i^H)(\alpha_j\alpha_j^H)=0(1\le i\neq j \le n)\\ (\alpha_i\alpha_i^H)^2=\alpha_i\alpha_i^H(1\le i \le n)
(αiαiH)H=αiαiH(1≤i≤n)(αiαiH)(αjαjH)=0(1≤i=j≤n)(αiαiH)2=αiαiH(1≤i≤n)
所以
P
i
H
=
P
i
,
P
i
2
=
P
i
,
P
i
P
j
=
0
(
1
≤
i
≠
j
≤
s
)
P_i^H=P_i,P_i^2=P_i,P_iP_j=0(1\le i\neq j\le s)
PiH=Pi,Pi2=Pi,PiPj=0(1≤i=j≤s)
P i P_i Pi是某正交变换(在某基下)的矩阵,故常称为正交投影矩阵
单纯矩阵的谱分解
设
A
A
A是单纯矩阵
设
λ
1
,
⋯
,
λ
n
\lambda_1,\cdots,\lambda_n
λ1,⋯,λn是
A
A
A的
n
n
n个特征值,
x
1
,
⋯
,
x
n
x_1,\cdots,x_n
x1,⋯,xn是
A
A
A的
n
n
n个线性无关的特征向量,且有
A
x
i
=
λ
i
x
i
(
i
=
1
,
2
,
⋯
,
n
)
Ax_i=\lambda_i x_i(i=1,2,\cdots,n)
Axi=λixi(i=1,2,⋯,n)
令
P
=
(
x
1
,
⋯
,
x
n
)
P=(x_1,\cdots,x_n)
P=(x1,⋯,xn)
Λ
=
d
i
a
g
(
λ
1
,
⋯
,
λ
n
)
\Lambda=diag(\lambda_1,\cdots,\lambda_n)
Λ=diag(λ1,⋯,λn)
则
A
=
P
Λ
P
−
1
A=P\Lambda P^{-1}
A=PΛP−1
A
T
=
(
P
T
)
−
1
Λ
P
T
A^T=(P^T)^{-1}\Lambda P^T
AT=(PT)−1ΛPT
立即推
A
T
A^T
AT也与对角矩阵相似,因此,设
y
1
,
⋯
,
y
n
y_1,\cdots,y_n
y1,⋯,yn是
A
T
A^T
AT的
n
n
n个线性无关的特征向量,即
A
T
y
i
=
λ
i
y
i
(
i
=
1
,
2
,
⋯
,
n
)
A^T y_{i}=\lambda_i y_i(i=1,2,\cdots,n)
ATyi=λiyi(i=1,2,⋯,n)
y
i
T
A
=
λ
i
y
i
T
(
i
=
1
,
2
,
⋯
,
n
)
y_{i}^T A=\lambda_i y_i^T(i=1,2,\cdots,n)
yiTA=λiyiT(i=1,2,⋯,n)
称
y
i
T
y_i^T
yiT是
A
A
A的左特征向量,
x
i
x_i
xi是
A
A
A的右特征向量
(
y
1
,
⋯
,
y
n
)
=
(
P
T
)
−
1
=
(
P
−
1
)
T
(y_1,\cdots,y_n)=(P^T)^{-1}=(P^{-1})^T
(y1,⋯,yn)=(PT)−1=(P−1)T
P
−
1
=
(
y
1
T
⋮
y
n
T
)
P^{-1}= \begin{pmatrix} y_1^T\\ \vdots\\ y_n^T \end{pmatrix}
P−1=⎝⎜⎛y1T⋮ynT⎠⎟⎞
由
P
P
−
1
=
P
−
1
P
=
I
PP^{-1}=P^{-1}P=I
PP−1=P−1P=I,得
(
x
1
,
⋯
,
x
n
)
(
y
1
T
⋮
y
n
T
)
=
(
x
1
T
⋮
x
n
T
)
(
y
1
,
⋯
,
y
n
)
=
I
(x_1,\cdots,x_n)\begin{pmatrix} y_1^T\\ \vdots\\ y_n^T \end{pmatrix}= \begin{pmatrix} x_1^T\\ \vdots\\ x_n^T \end{pmatrix}(y_1,\cdots,y_n)=I
(x1,⋯,xn)⎝⎜⎛y1T⋮ynT⎠⎟⎞=⎝⎜⎛x1T⋮xnT⎠⎟⎞(y1,⋯,yn)=I
立即推
x
1
y
1
T
+
x
2
y
2
T
+
⋯
x
n
y
n
T
=
I
x_1y_1^T+x_2y_2^T+\cdots x_n y_n^T=I
x1y1T+x2y2T+⋯xnynT=I
比较两端得
y
i
T
x
j
=
δ
i
j
=
{
1
,
i
=
j
0
,
i
≠
j
(
i
,
j
=
1
,
2
,
⋯
,
n
)
y_i^Tx_j=\delta_{ij}=\begin{cases} 1,i=j\\ 0,i\neq j\\ \end{cases}(i,j=1,2,\cdots,n)
yiTxj=δij={1,i=j0,i=j(i,j=1,2,⋯,n)
于是
A
=
(
x
1
,
⋯
,
x
n
)
d
i
a
g
(
λ
1
,
⋯
,
λ
n
)
(
y
1
T
⋮
y
n
T
)
=
λ
1
x
1
y
1
T
+
⋯
+
λ
n
x
n
y
n
T
\begin{aligned} A&=(x_1,\cdots,x_n)diag(\lambda_1,\cdots,\lambda_n)\begin{pmatrix} y_1^T\\ \vdots\\ y_n^T \end{pmatrix}\\ &=\lambda_1 x_1 y_1^T+\cdots+\lambda_n x_n y_n^T \end{aligned}
A=(x1,⋯,xn)diag(λ1,⋯,λn)⎝⎜⎛y1T⋮ynT⎠⎟⎞=λ1x1y1T+⋯+λnxnynT
令
G
i
=
x
i
y
i
T
G_i=x_i y_i^T
Gi=xiyiT
得到
A
=
∑
i
=
1
n
λ
i
G
i
A=\sum_{i=1}^{n}\lambda_i G_i
A=i=1∑nλiGi
称为单纯矩阵
A
A
A的谱分解
定理
设
A
A
A是
n
n
n阶单纯矩阵,
λ
1
,
⋯
,
λ
r
\lambda_1,\cdots,\lambda_r
λ1,⋯,λr是
A
A
A的
r
r
r个相异的特征值,则
A
A
A可以进行满足下列性质的谱分解
(1)
A
=
∑
j
=
1
r
λ
j
E
j
A=\sum_{j=1}^{r}\lambda_j E_j
A=∑j=1rλjEj
(2)
E
j
2
=
E
j
(
j
=
1
,
2
,
⋯
,
r
)
E_j^2=E_j(j=1,2,\cdots,r)
Ej2=Ej(j=1,2,⋯,r)
(3)
E
i
E
j
=
0
(
i
≠
j
,
i
,
j
=
1
,
⋯
,
r
)
E_iE_j=0(i\neq j,i,j=1,\cdots,r)
EiEj=0(i=j,i,j=1,⋯,r)
(4)
∑
j
=
1
r
E
j
=
I
\sum_{j=1}^{r}E_j=I
∑j=1rEj=I
证明:
设对应与
λ
j
\lambda_j
λj的线性无关的右特征向量
x
1
j
,
⋯
,
x
s
j
j
x_1^j,\cdots,x_{s_j}^j
x1j,⋯,xsjj,其中
s
j
s_j
sj是对应
λ
j
\lambda_j
λj的代数重复度,而左特征向量为
(
y
1
j
)
T
,
⋯
,
(
y
s
j
j
)
T
(y_1^j)^T,\cdots, (y_{s_j}^j)^T
(y1j)T,⋯,(ysjj)T
于是
A
=
∑
j
=
1
r
λ
j
(
∑
k
=
1
s
j
x
k
j
(
y
k
j
)
T
)
=
∑
i
=
1
r
λ
j
E
j
A=\sum_{j=1}^{r}\lambda_{j}(\sum_{k=1}^{s_j}x_k^j(y_k^j)^T)=\sum_{i=1}^{r}\lambda_jE_j
A=j=1∑rλj(k=1∑sjxkj(ykj)T)=i=1∑rλjEj
E
j
=
∑
k
=
1
s
j
x
k
j
(
y
k
j
)
T
=
(
x
1
j
,
⋯
,
x
s
j
j
)
(
(
y
1
j
)
T
⋮
(
y
s
j
j
)
T
)
E_j=\sum_{k=1}^{s_j}x_k^j(y_k^j)^T=(x_1^j,\cdots,x_{s_j}^j) \begin{pmatrix} (y_1^j)^T\\ \vdots\\ (y_{s_j}^j)^T \end{pmatrix}
Ej=k=1∑sjxkj(ykj)T=(x1j,⋯,xsjj)⎝⎜⎛(y1j)T⋮(ysjj)T⎠⎟⎞
所以
∑
j
=
1
r
E
j
=
I
\sum_{j=1}^{r}E_j=I
j=1∑rEj=I
由
y
i
T
x
j
=
δ
i
j
y_i^Tx_j=\delta_{ij}
yiTxj=δij
得
E
j
2
=
E
j
,
E
i
E
j
=
0
E_j^2=E_j,E_iE_j=0
Ej2=Ej,EiEj=0
E j E_j Ej称为 A A A谱分解的成分矩阵或幂等矩阵
推论
设
A
=
∑
j
=
1
r
λ
j
E
j
A=\sum_{j=1}^{r}\lambda_jE_j
A=∑j=1rλjEj是单纯矩阵的谱分解,则
A
m
=
∑
j
=
1
r
λ
j
m
E
j
A^m=\sum_{j=1}^{r}\lambda_j^mE_j
Am=j=1∑rλjmEj