特征值估计笔记
闲话
没点关系的闲话
矩阵论这个课程进入到倒数第二章了,也就是快讲完了啊,说实话,前面一般因为自己的实力不足,达不到听懂老师的水准,想着可能和本科的某些老师一样,说着是要板书,可惜只是把书上的证明挪到了黑板上,现在看来,自己真的是个蠢货,要是有后悔药,我肯定买一把先吃了。
可能有点关系的闲话
特征值的估计…… Emmmmm 特征值是什么?估计这东西有什么用?怎么估计?题怎么做?
先来一套萌新三连
老师上课的时候就吐槽了,你们现在学习这些东西,就知道问题怎么做,书上要是有公式了,课肯定是不会听的,背完公式就去考试了,考完就忘了,高分低能说的就是你们,到时候面对实际问题,啥都不会,没见过。(碎碎念)
有点关系的闲话
老实说,接续上一章矩阵是什么?
矩阵可以理解为一种对向量的变换,
A
x
=
y
Ax=y
Ax=y这个
x
x
x是原速度,有方向向量方向,由各个基合成,系数表示占比大小,模长,
y
y
y为变换后的向量,一样有大小有方向,将这个
A
A
A表示为
P
−
1
Λ
P
P^{-1} \Lambda P
P−1ΛP的形式,假设这个
P
P
P的列向量是单位正交的,那么,这个
y
y
y就可以解释成由
A
A
A进行
旋
转
−
−
>
拉
伸
−
−
>
旋
转
旋转-->拉伸-->旋转
旋转−−>拉伸−−>旋转得到的新速度。
注:这里的改变
P
P
P单纯是理论服务实际,也就是为了方便解释,所以这样拆分并且解释,你完全可以拽着
x
x
x弄到
y
y
y,期间咋变,都可以用矩阵来表示,最后这些矩阵相乘变成
A
A
A就行
矩阵可以理解为线性方程组
A
A
A为系数阵
[
A
,
b
]
[A,b]
[A,b]为增广阵,将
A
A
A变成对角阵,得到特征值,对增广阵进行相同的变化,也就得到了方程组的解,直观,但不必要。
这里说一句题外话矩阵的分解——
Q
R
QR
QR或者
L
D
U
LDU
LDU,实际上就是为了让电脑进行解方程出来的,他们拥有不同的算法复杂度(说的再清楚一点,分解这个东西就是为了给计算机减负,别让你的显存或者内存超了,然后U没了)
再说句题外话,矩阵这个东西具体怎么理解是因学科而异的,在这里可以这样理解,在那里又可以换个解释,数学是门工具,帮助我们分析并解决实际问题的,所以,Emmm我们的实际问题就是考试,没什么毛病
特征值估计
特征值在控制系统中表征零极点的位置,而根据零极点的大致位置就可以判断系统的状态(稳定或者不稳定)——这是老师说的
关于这个知识点,完全杂乱无章,还有很多人写了书,很厚一本书,就是用来估计特征值的。
特征值的界估计的前提
首先,我们看两个矩阵
[
1
0
0
0
2
0
0
0
3
]
[
1
0.1
0
0
2
0.0001
0
0.001
3
]
\left [ \begin{matrix} 1 & 0 & 0 \\ 0& 2& 0\\ 0& 0 & 3 \end{matrix} \right] \left [ \begin{matrix} 1 & 0.1 & 0 \\ 0 & 2 & 0.0001 \\ 0 & 0.001 & 3 \end{matrix} \right]
⎣⎡100020003⎦⎤⎣⎡1000.120.00100.00013⎦⎤
这两个矩阵的特征值,显然不一样,但是,第二个矩阵的特征值,大家都肯定是在第一个矩阵特征值的附近,为什么?为什么可以这么说?数学上如何解释?
解矩阵的特征值的时候我们通过
∣
λ
E
−
A
∣
=
0
|\lambda E-A|=0
∣λE−A∣=0进行求解,而通过因式分解可以得到
(
λ
1
−
f
1
(
a
i
,
j
)
)
(
λ
2
−
f
2
(
a
i
,
j
)
)
(
λ
3
−
f
3
(
a
i
,
j
)
)
.
.
.
(
λ
n
−
f
n
(
a
i
,
j
)
)
=
0
(\lambda_1-f_1(a_{i,j}))(\lambda_2-f_2(a_{i,j}))(\lambda_3-f_3(a_{i,j}))...(\lambda_n-f_n(a_{i,j}))=0
(λ1−f1(ai,j))(λ2−f2(ai,j))(λ3−f3(ai,j))...(λn−fn(ai,j))=0类似这样的一个东西,其中
f
f
f是连续函数,连续函数的梯度是有上下限的,所以,第二个矩阵的特征值依旧在
123
123
123附近
特征值的界估计的内容(模长,实部,虚部)
先说说矩阵和特征值在实数域的联系——特征向量
A
x
=
λ
x
−
>
λ
=
x
T
A
x
Ax=\lambda x->\lambda =x^TAx
Ax=λx−>λ=xTAx这样特征值就变成了二次型的形状,我们可以规定
∣
∣
x
∣
∣
2
=
1
||x||_2=1
∣∣x∣∣2=1即模长为
1
1
1方便我们分析
(1)
λ
=
x
T
A
x
=
∑
i
,
j
=
1
n
a
i
,
j
x
i
x
j
≤
m
a
x
[
a
i
,
j
]
∑
i
,
j
=
1
n
∣
x
i
∣
∣
x
j
∣
=
m
a
x
[
a
i
,
j
]
[
∑
i
=
1
n
∣
x
i
∣
]
2
≤
m
a
x
[
a
i
,
j
]
n
∑
i
1
n
∣
x
i
∣
2
=
n
m
a
x
[
a
i
,
j
]
\lambda=x^TAx\\=\sum_{i,j=1}^na_{i,j}x_ix_j\\ \leq max[{a_{i,j}}]\sum_{i,j=1}^n|x_i||x_j|\\=max[{a_{i,j}}][{\sum_{i=1}^n|x_i|}]^2\\\leq max[a_{i,j}]n\sum_{i1}^n|x_i|^2\tag{1}=nmax[a_{i,j}]
λ=xTAx=i,j=1∑nai,jxixj≤max[ai,j]i,j=1∑n∣xi∣∣xj∣=max[ai,j][i=1∑n∣xi∣]2≤max[ai,j]ni1∑n∣xi∣2=nmax[ai,j](1)
其中(1)用到的不等式为
n
(
∑
1
n
a
i
2
)
≥
(
∑
1
n
(
a
i
)
)
2
n(\sum_1^n a_i^2)\geq(\sum_1^n(a_i))^2
n(∑1nai2)≥(∑1n(ai))2
第一种界估计到这里还没用讲完,
注:实部为
∣
A
+
A
H
∣
2
\frac{|A+A^H|}2
2∣A+AH∣虚部为
∣
A
−
A
H
∣
2
\frac{|A-A^H|}2
2∣A−AH∣ 模长为
A
A
A对应改变
m
a
x
[
f
(
a
r
,
j
)
]
max[f(a_{r,j})]
max[f(ar,j)]就OK了
这样,第一种对于特征值的估计(模长,实部,虚部)就完成了
紧接着问题又来了,既然估计这么简单,为什么别人要写那么厚的书,大费口舌的解释呢,我可以说你特征值小于100大于0,我也可以说你特征值在10-20之间,这样一来,这种问题就有了继续研究的必要——如何使特征值的估计更为紧凑。
另一种较为紧凑的特征值界估计
关注特征值的虚部
2
I
m
(
λ
)
=
x
H
(
A
−
A
H
)
x
2Im(\lambda)=x^H(A-A^H)x
2Im(λ)=xH(A−AH)x
2
∣
j
I
m
(
λ
)
∣
=
∣
x
H
(
A
−
A
H
)
x
∣
=
1
2
∣
[
(
x
H
(
A
−
A
H
)
x
)
+
(
x
T
(
A
T
−
A
)
x
ˉ
)
]
∣
(
A
为
实
数
阵
,
转
置
)
=
1
2
∣
(
∑
r
,
s
=
1
n
(
a
r
,
s
−
a
s
,
r
)
x
ˉ
r
x
s
+
∑
r
,
s
=
1
n
(
a
s
,
r
−
a
r
,
s
)
x
r
x
ˉ
s
)
∣
≤
1
2
(
∑
r
,
s
=
1
n
∣
a
r
,
s
−
a
s
,
r
∣
(
x
ˉ
r
x
s
−
x
r
x
ˉ
s
)
)
≤
M
∑
r
,
s
=
1
n
x
ˉ
r
x
s
−
x
r
x
ˉ
s
(
M
为
1
2
m
a
x
∣
a
r
,
s
−
a
ˉ
s
,
r
∣
)
4
[
I
m
(
λ
)
]
≤
M
2
n
(
n
−
1
)
∑
r
,
s
=
1
,
r
≠
s
n
∣
x
ˉ
r
x
s
−
x
r
x
ˉ
s
∣
2
(
先
两
边
取
模
,
后
平
方
,
再
利
用
(
1
)
中
不
等
式
)
∑
r
,
s
=
1
,
r
≠
s
n
∣
x
ˉ
r
x
s
−
x
r
x
ˉ
s
∣
2
=
2
−
2
∣
∑
r
=
1
n
(
x
r
2
)
∣
2
4
∣
I
m
(
λ
)
∣
2
≤
M
2
n
(
n
−
1
)
×
2
→
I
m
(
λ
)
≤
M
n
(
n
−
1
)
2
2|jIm(\lambda)|=|x^H(A-A^H)x|\\=\frac12|[(x^H(A-A^H)x)+(x^T(A^T-A)\bar x)]|(A为实数阵,转置)\\=\frac12|(\sum_{r,s=1}^n(a_{r,s}-{a_{s,r}})\bar x_r x_s+\sum_{r,s=1}^n({a_{s,r}}-a_{r,s})x_r\bar x_s)|\\ \leq \frac1 2 (\sum_{r,s=1}^n|a_{r,s}-{a_{s,r}}|(\bar x_r x_s-x_r\bar x_s))\\\leq M\sum_{r,s=1}^n\bar x_r x_s-x_r\bar x_s(M为\frac 12max|a_{r,s}-\bar{a}_{s,r}|)\\ 4[Im{(\lambda)}]\leq M^2n(n-1)\sum_{r,s=1,r\neq s}^n|\bar x_r x_s-x_r\bar x_s|^2(先两边取模,后平方,再利用(1)中不等式)\\\sum_{r,s=1,r\neq s}^n|\bar x_r x_s-x_r\bar x_s|^2 =2-2|\sum_{r=1}^n(x_r^2)|^2\\4|Im(\lambda)|^2\leq M^2n(n-1)\times2\rightarrow Im(\lambda)\leq M\sqrt \frac{n(n-1)}2
2∣jIm(λ)∣=∣xH(A−AH)x∣=21∣[(xH(A−AH)x)+(xT(AT−A)xˉ)]∣(A为实数阵,转置)=21∣(r,s=1∑n(ar,s−as,r)xˉrxs+r,s=1∑n(as,r−ar,s)xrxˉs)∣≤21(r,s=1∑n∣ar,s−as,r∣(xˉrxs−xrxˉs))≤Mr,s=1∑nxˉrxs−xrxˉs(M为21max∣ar,s−aˉs,r∣)4[Im(λ)]≤M2n(n−1)r,s=1,r̸=s∑n∣xˉrxs−xrxˉs∣2(先两边取模,后平方,再利用(1)中不等式)r,s=1,r̸=s∑n∣xˉrxs−xrxˉs∣2=2−2∣r=1∑n(xr2)∣24∣Im(λ)∣2≤M2n(n−1)×2→Im(λ)≤M2n(n−1)
由此可以看出,特征值界的估计精度从
n
n
n上升到了
n
(
n
−
1
)
2
\sqrt \frac{n(n-1)}2
2n(n−1)
盖尔圆估计特征值的区域
当我们知道了特征值的界,我们还想继续缩小特征值的范围 → \rightarrow →对于每个特征值分别进行分析,特征值在哪里?画的圈里( ∣ λ − a i 0 i 0 ∣ = ∑ j ≠ i 0 ∣ a i , j ∣ |\lambda -a_{i_0i_0}|=\sum_{j\neq i_0}|a_{i,j}| ∣λ−ai0i0∣=∑j̸=i0∣ai,j∣)并且由于转置不改变矩阵的特征值,可以把这个圈画的更小一点(这里我问老师能否改变距离的度量由1范数变成2范数,使估计更加紧致,但是老师指出2范数无法通过数学证明( x x x是 A A A的特征向量,其中每个分量平方后,可能不是 A A A的特征向量了,因而无法证明)。每个圈有几个特征值?孤立的盖尔圆只有1个,连通的圆,在连通处有k个(k个圆连通)
盖尔圆定理1
以三阶矩阵为例
A
x
=
[
a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33
]
[
x
1
x
2
x
3
]
=
λ
[
x
1
x
2
x
3
]
∑
j
=
1
3
a
i
j
x
j
=
λ
x
i
(
注
意
下
标
)
∣
∑
j
=
1
,
j
≠
i
3
a
i
j
x
j
∣
=
∣
λ
−
a
i
i
∣
∣
x
i
∣
∑
j
=
1
,
j
≠
i
3
∣
a
i
j
∣
∣
x
j
∣
≥
∣
λ
−
a
i
i
∣
∣
x
i
∣
此
时
,
假
设
x
i
=
m
a
x
∣
x
i
∣
,
则
∑
j
=
1
,
j
≠
i
3
∣
a
i
j
∣
≥
∣
λ
−
a
i
i
∣
对
所
有
的
λ
成
立
Ax= \left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21}& a_{22}& a_{23}\\ a_{31}& a_{32} & a_{33} \end{matrix} \right] \left [ \begin{matrix} x_1\\x_2\\x_3 \end{matrix} \right] = \lambda \left [ \begin{matrix} x_1\\x_2\\x_3 \end{matrix} \right]\\ \sum_{j=1}^{3}a_{ij}x_j=\lambda x_i (注意下标)\\ | \sum_{j=1,j \neq i}^{3}a_{ij}x_j|=|\lambda-a_{ii}||x_i|\\ \sum_{j=1,j \neq i}^{3}|a_{ij}||x_j|\geq|\lambda-a_{ii}||x_i|\\ 此时,假设x_i=max|x_i|,则 \sum_{j=1,j \neq i}^{3}|a_{ij}|\geq|\lambda-a_{ii}|对所有的\lambda 成立
Ax=⎣⎡a11a21a31a12a22a32a13a23a33⎦⎤⎣⎡x1x2x3⎦⎤=λ⎣⎡x1x2x3⎦⎤j=1∑3aijxj=λxi(注意下标)∣j=1,j̸=i∑3aijxj∣=∣λ−aii∣∣xi∣j=1,j̸=i∑3∣aij∣∣xj∣≥∣λ−aii∣∣xi∣此时,假设xi=max∣xi∣,则j=1,j̸=i∑3∣aij∣≥∣λ−aii∣对所有的λ成立
讨论 这个定理1指出——对每个圆心画圈,画好后,特征值就在这些圈的并集之中,并没有指出某个特定的特征值和矩阵对应对角的关系(
x
1
x_1
x1,
x
2
x_2
x2可能都是第一个分量大,
x
3
x_3
x3的分量2大,这样的话,在以
a
11
a_{11}
a11为圆心的圆中就有2个特征值,在以
a
22
a_{22}
a22的圆中有一个,以
a
33
a_{33}
a33的圆中一个都没有。
接下来论证这个讨论的情况会不会发生(今天问老师的时候说不清楚问题所在,老师直接让我回去看书了……蓝瘦,香菇)
盖尔圆定理2(以上讨论的问题当然不会发生了)
盖尔圆定理2指出——对于孤立的盖尔圆,仅有一个特征值在圆里,有k个连通,则有k个特征值在连通区域。证明如下
假
设
A
0
=
[
a
1
0
0
0
a
2
0
0
0
a
3
]
A
ε
=
[
0
s
12
s
13
s
21
0
s
23
s
31
s
32
0
]
A
=
A
0
+
u
A
ε
u
∈
[
0
,
1
]
假设 A_0=\left [ \begin{matrix} a_1 & 0 & 0 \\ 0& a_2& 0\\ 0& 0 & a_3 \end{matrix} \right] A_\varepsilon=\left [ \begin{matrix} 0 & s_{12} & s_{13} \\ s_{21}& 0& s_{23}\\ s_{31}& s_{32} & 0 \end{matrix} \right]\\A=A_0+uA_\varepsilon u\in[0,1]
假设A0=⎣⎡a1000a2000a3⎦⎤Aε=⎣⎡0s21s31s120s32s13s230⎦⎤A=A0+uAεu∈[0,1]
对于上式进行分析之前,让我们回顾一下为什么可以进行特征值估计——特征值是系数的连续函数这样的话
u
=
0
→
u
=
1
u=0\rightarrow u=1
u=0→u=1的变换期间,特征值的移动轨迹就可以用连续的曲线进行表示,并且变化超不出
A
A
A的盖尔圆,用图来表示(希望大佬能安利几个作图软件,自己手画的有点……丑,但是意思达到了,图中红色的是不可能的线,因为它违背了大前提特征值必定在盖尔圆中)
到此,盖尔圆的2个定理就说完了,然后,为了使我们的估计更加紧致,我们可以通过不改变特征值的变换——转置,相似。来修整这个盖尔圆。
转置——
λ
(
A
T
)
=
λ
(
A
)
\lambda(A^T)=\lambda(A)
λ(AT)=λ(A)因而我们可以选择列主圆法,将半径修改为
m
i
n
[
∑
j
=
1
,
j
≠
i
n
a
i
j
,
∑
i
=
1
,
i
≠
j
n
a
i
j
]
min[\sum_{j=1,j\neq i}^na_{ij},\sum_{i=1,i\neq j}^na_{ij}]
min[∑j=1,j̸=inaij,∑i=1,i̸=jnaij]
相似——
D
=
d
i
a
g
(
d
1
,
…
…
,
d
n
)
,
D
A
D
−
1
=
(
d
i
d
j
a
i
j
)
n
×
n
D=diag(d_1,……,d_n),DAD^{-1}=(\frac {d_i}{d_j}a_{ij})_{n \times n}
D=diag(d1,……,dn),DAD−1=(djdiaij)n×n将
A
A
A变成一个严格对角占优的矩阵对角元素的绝对值大于该行其他元素绝对值之和,且大于该列其他元素绝对值之和
总结
特征值估计还有很多的方法,正如老师所说,每种方法之间没什么关系,我们的课程讲到了这个深度,我并没有继续深究的打算了,如果以后要用到的话,可以再继续研究这个方面的问题,希望我的博客记录能给学习矩阵论的人有一些思考的启发吧,能不在我遇到的问题里纠结,想不明白。
题外话
希望有大佬能带带我,嘤嘤嘤。