第五章 特征值的估计及对称矩阵的极性
文章目录
注:
1.本章讨论的是" 方阵“的特征值。
2.复数域上的方阵 A n ∗ n A_{n*n} An∗n特征值个数=阶数n。
一、特征值的估计
- 原因/背景:
1)大矩阵特征值的计算困难;
2)大量应用中,不需要精确计算特征值,只需估测出其范围即可。
1.1. 特征值的界
- 特征值的模的上下界估计:
是对每个特征值做估计.
- 特征值模的 虚部的 上界估计: |
---|
1)
[
I
m
(
λ
)
]
≤
M
n
(
n
−
1
)
2
[Im(\lambda)]≤M\sqrt{\frac{n(n-1)}{2}}
[Im(λ)]≤M2n(n−1), 其中, M = m a x 1 2 [ a r s − a s r ] M=max\frac{1}{2}[a_{rs}-a_{sr}] M=max21[ars−asr],考察了矩阵的对称程度。 |
2) [ I m ( λ ) ] ≤ 1 2 [ [ A − A H ] ] m 无 穷 [Im(\lambda)]≤\frac{1}{2}[[A-A^H]]_{m无穷} [Im(λ)]≤21[[A−AH]]m无穷 |
- [在估计特征值虚部的上界时,(1)比(2)结果更精准。] |
- 特征值模的 实部的 上界估计: |
---|
1) [ R e ( λ ) ] ≤ 1 2 [ [ A + A H ] ] m 无 穷 [Re(\lambda)]≤\frac{1}{2}[[A+A^H]]_{m无穷} [Re(λ)]≤21[[A+AH]]m无穷 |
2) [ λ ] ≤ ρ ( A ) ≤ [ [ A ] ] m 无 穷 [\lambda]≤\rho(A)≤[[A]]_{m无穷} [λ]≤ρ(A)≤[[A]]m无穷 |
- 以上 得到以下推论: |
---|
1. 实对称矩阵的特征值都是实数。 |
2. Hermite矩阵的特征值都是实数。 A = A H A=A^H A=AH |
3. 反Hermite矩阵的特征值都是零或虚数。 A = − A H A=-A^H A=−AH |
- 特征值的模之积的上下界估计:
是对全体特征值做估计.
矩阵A满足的特点 | 特征值的模的积的上下界估计 |
---|---|
1)按行严格对角占优 |
0
<
∏
r
=
1
n
m
r
≤
[
d
e
t
A
]
=
∏
r
=
1
n
[
λ
r
(
A
)
]
≤
∏
r
=
1
n
M
r
0<\prod_{r=1}^n m_r≤[detA]=\prod_{r=1}^n[\lambda_r(A)]≤\prod_{r=1}^n M_r
0<∏r=1nmr≤[detA]=∏r=1n[λr(A)]≤∏r=1nMr. 等号成立: a r s = 0 a_{rs}=0 ars=0(s>r). |
2)一般方阵 |
[
d
e
t
A
]
=
∏
r
=
1
n
[
λ
r
(
A
)
]
≤
[
∏
s
=
1
n
(
∑
r
=
1
n
[
a
r
s
]
2
)
]
1
/
2
[detA]=\prod_{r=1}^n[\lambda_r(A)]≤[\prod_{s=1}^n(\sum_{r=1}^n [a_{rs}]^2)]^{1/2}
[detA]=∏r=1n[λr(A)]≤[∏s=1n(∑r=1n[ars]2)]1/2. 等号成立:某列 a s 0 = 0 a_{s_0}=0 as0=0或 列向量两两相交 ( a r , a s ) = 0 (a_r,a_s)=0 (ar,as)=0. 也即,特征值的模的积≤矩阵(各列元素的2-范数之和)的乘积。 |
其中,
- 涉及的几个小概念: |
---|
1. R r ( A ) R_r(A) Rr(A):第r行,除对角元素 a r r a_{rr} arr外其他所有元素的模之和 |
2. M r ( A ) M_r(A) Mr(A):第r行,对角元素 a r r a_{rr} arr与其右侧所有元素的模之和 |
3. m r ( A ) m_r(A) mr(A):第r行,对角元素 a r r a_{rr} arr与其右侧所有元素的模之差 |
4. 按行严格对角占优:第r行,对角元素 a r r a_{rr} arr的模 > R r ( A ) R_r(A) Rr(A) |
5. 按行弱对角占优:第r行,对角元素 a r r a_{rr} arr的模 ≥ R r ( A ) R_r(A) Rr(A),且存在 r 0 ∈ [ 1 , n ] r_0∈[1,n] r0∈[1,n],使得 a r 0 r 0 a_{r_0r_0} ar0r0的模> R r 0 ( A ) R_{r_0}(A) Rr0(A) |
- 特征值的模的平方和的上界估计:
是对全体特征值做估计.
特征值的模的平方和的上界估计: |
---|
∑ r = 1 n [ λ r ] ≤ ∑ r , s = 1 n [ a r s ] 2 = [ [ A ] ] F 2 \sum_{r=1}^n [\lambda_r]≤\sum_{r,s=1}^n [a_{rs}]^2=[[A]]^2_F ∑r=1n[λr]≤∑r,s=1n[ars]2=[[A]]F2 |
等号成立条件:A为正规矩阵,
A
H
A
=
A
A
H
A^HA=AA^H
AHA=AAH. 也即,A的特征值的模的平方和≤A的所有元素的模的平方和。 |
1.2. 盖尔圆 Gerschgorin
- 原因/背景:
几何的角度估计特征值:
Gerschgorin提出用复平面的一组圆盘覆盖矩阵的全体特征值。
对矩阵A的任一特征值 λ \lambda λ,存在i,使得对矩阵A的第i行有: ∣ z − a r r ∣ ≤ R i ( A ) |z-a_{rr}|≤R_i(A) ∣z−arr∣≤Ri(A),
也即,每个 λ i \lambda_i λi一定在某个以( a r r , 0 a_{rr},0 arr,0)为圆心,以 R i R_i Ri为半径的圆 G i G_i Gi内。
-盖尔圆与特征值的关系 |
---|
1. 方阵A的所有特征值都在它的n个盖尔圆的并集内。 |
2. 盖尔圆并集组成的每个连通部分,若是由k个盖尔圆组成的,则此连通部分有k个特征值。 |
- 特征值的隔离
1- 原因:
连通的盖尔圆使得无法判断特征值到底在哪一个内,希望能够每个圆内有且只有一个特征值。
2-做法:
调整矩阵A的盖尔圆半径,使各个 G i G_i Gi孤立、不相交。
对矩阵做相似变换,需要找到合适的对角矩阵D[D= d i a g ( d 1 , d 2 , . . . d n ) diag(d_1,d_2,...d_n) diag(d1,d2,...dn)],使得:
r i = ∑ j = 1 , j ≠ i n [ a i j ] d i d j r_i=\sum_{j=1,j≠i}^n [a_{ij}]\frac{d_i}{d_j} ri=∑j=1,j=in[aij]djdi,
其中,B=DAD − 1 = ( d i d j a i j ) n ∗ n ^{-1}=(\frac{d_i}{d_j}a_{ij})_{n*n} −1=(djdiaij)n∗n.
d e t ( A ) = d e t ( B ) = d e t ( B H ) det(A)=det(B)=det(B^H) det(A)=det(B)=det(BH),A和B有相同的特征值。
1.3. Ostrowski
- 原因/背景:
几何的角度估计特征值:
Ostrowski提出用复平面的一组卵形覆盖矩阵的全体特征值。
Ostrowski 1:
对矩阵A的任一特征值 λ \lambda λ,存在i,使得对矩阵A的第i行有:
∣ z − a r r ∣ ≤ [ R i ( A ) ] α [ R i ( A T ) ] 1 − α |z-a_{rr}|≤[R_i(A)]^{\alpha}[R_i(A^T)]^{1-\alpha} ∣z−arr∣≤[Ri(A)]α[Ri(AT)]1−α,
其中, 0 ≤ α ≤ 1 0≤\alpha≤1 0≤α≤1.
由于 τ α σ 1 − α ≤ α τ + ( 1 − α ) σ \tau^{\alpha}\sigma^{1-\alpha}≤{\alpha}\tau+(1-\alpha)\sigma τασ1−α≤ατ+(1−α)σ,
几个推论 |
---|
1. [ z − a r r ] ≤ α R i ( A ) + ( 1 − α ) R i ( A T ) [z-a_{rr}]≤{\alpha}R_i(A)+(1-\alpha)R_i(A^T) [z−arr]≤αRi(A)+(1−α)Ri(AT) |
2. … |
Ostrowski 2:
对矩阵A的任一特征值 λ \lambda λ,存在i和j,使得对矩阵A的第i、j两行有:
Ω i j ( A ) = \Omega_{ij}(A)= Ωij(A)={ z ∣ z ∈ C , ∣ z − a i i ∣ ∣ z − a j j ∣ ≤ R i ( A ) R j ( A ) z|z∈C,|z-a_{ii}||z-a_{jj}|≤R_i(A)R_j(A) z∣z∈C,∣z−aii∣∣z−ajj∣≤Ri(A)Rj(A)},
其中, i ≠ j i≠j i=j.
- 推论:
∣ a i i ∣ ∣ a j j ∣ > R i ( A ) R j ( A ) |a_{ii}||a_{jj}|>R_i(A)R_j(A) ∣aii∣∣ajj∣>Ri(A)Rj(A),则detA≠0.
其中, i ≠ j i≠j i=j.
二、广义特征值问题
-
原因/背景:
在振动理论中,常碰到广义特征值问题的求解问题。 -
广义特征值:
A x ⃗ = λ B x ⃗ A\vec x=\lambda B \vec x Ax=λBx,其中A为n阶实对称矩阵,B为n阶实对称正定矩阵。
λ \lambda λ称作矩阵A相对于B的特征值,
非零解 x ⃗ \vec x x称作 λ \lambda λ的特征向量,( x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ n \vec x_1,\vec x_2,...,\vec x_n x1,x2,...,xn)构成一个完备的特征向量系(正交)。
- 广义特征值的等价形式:
- B − 1 A x ⃗ = λ x ⃗ B^{-1}A\vec x=\lambda \vec x B−1Ax=λx,其中 B − 1 A B^{-1}A B−1A不是对称矩阵。
- S y ⃗ = λ y ⃗ S\vec y=\lambda \vec y Sy=λy,其中, S = G − 1 A ( G − 1 ) T S=G^{-1}A(G^{-1})^T S=G−1A(G−1)T为对称矩阵。由于B是实对称正定矩阵,可以进行Cholesky分解成 B = G G T 9 B=GG^{^T9} B=GGT9。
三、对称矩阵特征值的极性
3.1. 实对称矩阵的Rayleigh商的极性
- 1. 实对称矩阵的Rayleigh商
R ( x ⃗ ) = x ⃗ T A x ⃗ x ⃗ T x ⃗ , ( x ≠ 0 ) R( \vec x)=\frac{\vec x^TA\vec x}{\vec x^T\vec x},(x≠0) R(x)=xTxxTAx,(x=0)
Rayleigh商的性质 |
---|
1. R(x)是连续函数 |
2. R(x)是x的零次齐次函数 |
3. R(kx)=R(x)=c |
4. R(x)的最大/小值能够在单位圆上取到. |
- 2 实对称矩阵的极性
(1).若已知:
矩阵A的特征值由小到大排列为:
λ
1
<
λ
2
<
.
.
.
<
λ
n
\lambda_1<\lambda_2<...<\lambda_n
λ1<λ2<...<λn,对应的标准正交特征向量系为:L= {
p
1
,
p
2
,
.
.
.
,
p
n
p_1,p_2,...,p_n
p1,p2,...,pn}。
- 得到实对称矩阵的极性:
m i n x ≠ 0 R ( x ) = λ 1 , m a x x ≠ 0 R ( x ) = λ n min_{x≠0}R(x)=\lambda_1,max_{x≠0}R(x)=\lambda_n minx=0R(x)=λ1,maxx=0R(x)=λn
且在单位球面 ∣ ∣ x ∣ ∣ 2 = 1 ||x||_2=1 ∣∣x∣∣2=1上, p 1 、 p n p_1、p_n p1、pn分别是R(x)的一个极小值点和极大值点:
R ( p 1 ) = λ 1 , R ( p n ) = λ n . R(p_1)=\lambda_1,R(p_n)=\lambda_n. R(p1)=λ1,R(pn)=λn.
即,函数R(x)的最小值为最小特征值,最大值为最大特征值。
在单位圆上,R(x)在x=p1和pn处取得极值。
- 推论:
L的子空间 L 0 = L_0= L0={ p r , p r + 1 , . . . , p k p_r,p_{r+1},...,p_k pr,pr+1,...,pk}的极性:
— m i n x ≠ 0 R ( x ) = λ r , m a x x ≠ 0 R ( x ) = λ k min_{x≠0}R(x)=\lambda_r,max_{x≠0}R(x)=\lambda_k minx=0R(x)=λr,maxx=0R(x)=λk
(2).若特征向量
p
1
,
p
2
,
.
.
.
,
p
n
p_1,p_2,...,p_n
p1,p2,...,pn未知时,求A的第k大的特征值为:
—
λ
k
=
m
i
n
v
k
m
a
x
\lambda_k=min_{v_k}max
λk=minvkmax{
x
T
A
x
∣
x
∈
V
k
,
∣
∣
x
∣
∣
2
=
1
x^TAx|x∈V_k,||x||_2=1
xTAx∣x∈Vk,∣∣x∣∣2=1}
3.1.3 实对称矩阵的扰动
3.2. 广义特征值的极小极大原理
- 广义Rayleigh商
R ( x ⃗ ) = x ⃗ T A x ⃗ x ⃗ T B x ⃗ , ( x ≠ 0 ) R( \vec x)=\frac{\vec x^TA\vec x}{\vec x^TB\vec x},(x≠0) R(x)=xTBxxTAx,(x=0)
- 广义特征值的极性
-
驻点:
x 0 x_0 x0是函数R(x)的驻点的充要条件: x 0 x_0 x0是 A x = λ B x Ax=\lambda Bx Ax=λBx的属于特征值 λ \lambda λ的特征向量. -
广义特征值的极性:
特征值的极小极大原理:— λ k = m i n v k m a x ( 0 ≠ x ∈ V k ) R ( x ) \lambda_k=min_{v_k}max_{(0≠x∈V_k)}R(x) λk=minvkmax(0=x∈Vk)R(x)
特征值的极大极小原理:— λ ( n − k + 1 ) = m a x v k m i n ( 0 ≠ x ∈ V k ) R ( x ) \lambda_(n-k+1)=max_{v_k}min_{(0≠x∈V_k)}R(x) λ(n−k+1)=maxvkmin(0=x∈Vk)R(x) -
实对称矩阵特征值的极性:
— λ k = m i n v k m a x ( 0 ≠ x ∈ V k ) R ( x ) \lambda_k=min_{v_k}max_{(0≠x∈V_k)}R(x) λk=minvkmax(0=x∈Vk)R(x)
— λ ( n − k + 1 ) = m a x v k m i n ( 0 ≠ x ∈ V k ) R ( x ) \lambda_(n-k+1)=max_{v_k}min_{(0≠x∈V_k)}R(x) λ(n−k+1)=maxvkmin(0=x∈Vk)R(x)
四、矩阵的直积与应用
4.1. 直积的概念
矩阵的直积:A⊗B.
直积的性质 | |
---|---|
1. 交换律 | A⊗B≠B⊗A |
2. 分配律 | (A1+A2)⊗B=A1⊗B+A2⊗B |
3. 结合律 | (A⊗B)⊗C=A⊗(B⊗C) |
4. 数乘 | k(A⊗B)=(kA)⊗B=A⊗(kB) |
5. 直积的乘积等于乘积的直积 | (A1⊗B1)(A2⊗B2)=(A1A2)⊗(B1B2) |
6. 可逆性 | A m ∗ m , B n ∗ n A_{m*m},B_{n*n} Am∗m,Bn∗n都是可逆矩阵,则(A⊗B) − 1 ^{-1} −1=A − 1 ^{-1} −1⊗B − 1 ^{-1} −1 |
7. 三角矩阵 | A m ∗ m , B n ∗ n A_{m*m},B_{n*n} Am∗m,Bn∗n都是三角矩阵,则(A⊗B)也是三角矩阵 |
8. 共轭转置 | (A⊗B) H ^H H=A H ^H H⊗B H ^H H |
9. 正交酉矩阵 | A m ∗ m , B n ∗ n A_{m*m},B_{n*n} Am∗m,Bn∗n都是正交酉矩阵,则(A⊗B)也是正交酉矩阵 |
10. 秩 | rank(A⊗B)=(rankA)*(rankB) |
11. 相似 | A ∈ C m ∗ m , B ∈ C n ∗ n A∈C^{m*m},B∈C^{n*n} A∈Cm∗m,B∈Cn∗n,则(A⊗B)~(B⊗A) |
- 与二元多项式结合:
对 f ( x , y ) = ∑ i = 0 l 1 ∑ j = 0 l 2 c i j x i y j f(x,y)=\sum_{i=0}^{l_1}\sum_{j=0}^{l_2}c_{ij}x^iy^j f(x,y)=∑i=0l1∑j=0l2cijxiyj,以及矩阵 A m ∗ m , B n ∗ n A_{m*m},B_{n*n} Am∗m,Bn∗n定义m*n阶矩阵f(A,B):
f ( A , B ) = ∑ i = 0 l 1 ∑ j = 0 l 2 c i j A i ⊗ B j f(A,B)=\sum_{i=0}^{l_1}\sum_{j=0}^{l_2}c_{ij}A^i⊗B^j f(A,B)=∑i=0l1∑j=0l2cijAi⊗Bj.
f(A,B)的性质 | |
---|---|
1. 特征值 | 1> A的特征值{
λ
1
,
λ
2
,
.
.
.
λ
n
\lambda_1,\lambda_2,...\lambda_n
λ1,λ2,...λn},B的特征值{
μ
1
,
μ
2
,
.
.
.
μ
n
\mu_1,\mu_2,...\mu_n
μ1,μ2,...μn},则矩阵
f
(
A
,
B
)
f(A,B)
f(A,B)的全体特征值为
f
(
λ
i
,
μ
j
)
f(\lambda_i,\mu_j)
f(λi,μj); 2> 矩阵(A⊗B)的全体特征值为 λ i μ j \lambda_i\mu_j λiμj. |
2.行列式det | A ∈ C m ∗ m , B ∈ C n ∗ n , d e t ( A ⊗ B ) = d e t A n ∗ d e t B m A∈C^{m*m},B∈C^{n*n},det(A⊗B)=detA^n*detB^m A∈Cm∗m,B∈Cn∗n,det(A⊗B)=detAn∗detBm |
3.迹tr | A ∈ C m ∗ m , B ∈ C n ∗ n , t r ( A ⊗ B ) = ( t r A ) ∗ ( t r B ) A∈C^{m*m},B∈C^{n*n},tr(A⊗B)=(trA)*(trB) A∈Cm∗m,B∈Cn∗n,tr(A⊗B)=(trA)∗(trB) |