矩阵分析系统学习笔记
本系列所有文章来自东北大学韩志涛老师的矩阵分析课程学习笔记,系列如下:
矩阵分析 (一) 线性空间和线性变换
矩阵分析 (二) 内积空间
矩阵分析 (三) 矩阵的标准形
矩阵分析 (四)向量和矩阵的范数
矩阵分析 (五) 矩阵的分解
矩阵分析 (六) 矩阵的函数
矩阵分析 (七) 矩阵特征值的估计
矩阵分析 (八) 矩阵的直积
矩阵特征值是矩阵的重要参数之一。从前面的讨论可以看到,把矩阵对角化或者求矩阵的约当标准形、判别矩阵的收敛,以及矩阵函数的性质都与特征值有关。当矩阵的阶数高于五次时,没有求根公式,这个时候如果能够给出特征值的位置或者给出特征值的取值范围,会对解决问题有一定的帮助。
不具体求特征值,而是给出特征值的范围,这就是特征值估计问题。例如讨论矩阵幂级数 ∑ k = 0 ∞ C k A k \sum_{k=0}^{\infty}C_{k}A^{k} ∑k=0∞CkAk是否收敛,只要知道矩阵 A A A的谱半径是否小于幂级数 ∑ k = 0 ∞ C k z k \sum_{k=0}^{\infty}C_{k}z^{k} ∑k=0∞Ckzk的收敛半径即可。
在自动控制理论中,系统的稳定性与特征值的实数部分的符号有关,如果实数部分为负,则系统稳定。因此通过矩阵本身的数值来给出特征值的范围就显得很重要。
特征值界的估计
前面讲到范数时曾经有:
ρ ( A ) ≤ ∣ ∣ A ∣ ∣ \rho(A) \leq ||A|| ρ(A)≤∣∣A∣∣
即矩阵的谱半径小于任何一个矩阵的范数,而范数可以通过矩阵本身的数值来计算,不需要解方程。
下面给出特征值的估计。
如果 λ \lambda λ是 A A A的特征值, x x x为特征向量,则 A x = λ x Ax=\lambda x Ax=λx,进一步假设 x x x是单位向量,则 x H x = 1 x^{H}x=1 xHx=1,两边乘以 x H x^{H} xH:
x H A x = λ x H x = λ x^{H}Ax=\lambda x^{H}x =\lambda xHAx=λxHx=λ
即 λ \lambda λ可以由 x H A x x^{H}Ax xHAx决定,可以通过估计这个函数来估计特征值。
- 定理7.1:设 A ∈ C n × n A \in C^{n \times n} A∈Cn×n, x ∈ C n x \in C^{n} x∈Cn,且 ∣ ∣ x ∣ ∣ 2 = 1 ||x||_{2}=1 ∣∣x∣∣2=1,则:
∣ x H A x ∣ ≤ ∣ ∣ A ∣ ∣ m ∞ |x^{H}Ax| \leq ||A||_{m_{\infty}} ∣xHAx∣≤∣∣A∣∣m∞
-
推论:由 λ = x H A x \lambda=x^{H}Ax λ=xHAx,得 ∣ λ ∣ ≤ ∣ ∣ A ∣ ∣ m ∞ | \lambda | \leq ||A||_{m_{\infty}} ∣λ∣≤∣∣A∣∣m∞。
-
定理7.2 设:
A ∈ C n × n , A \in C^{n \times n}, A∈Cn×n,
B = 1 2 ( A + A H ) , C = 1 2 ( A − A H ) B= \frac{1}{2}(A+A^{H}),C= \frac{1}{2}(A-A^{H}) B=21(A+AH),C=21(A−AH)
则 A A A的特征值 λ \lambda λ满足:
∣ R e λ ∣ ≤ ∣ ∣ B ∣ ∣ m ∞ , ∣ I m λ ∣ ≤ ∣ ∣ C ∣ ∣ m ∞ |Re \lambda| \leq ||B||_{m_{\infty}},|Im \lambda | \leq ||C||_{{m_{\infty}}} ∣Reλ∣≤∣∣B∣∣m∞,∣Imλ∣≤∣∣C∣∣m∞
-
推论:厄米特矩阵的特征值都是实数,反厄米特矩阵的特征值为零或者纯虚数。
-
定理7.3:(舒尔定理) 设 A ∈ C n × n A \in C^{n \times n} A∈Cn×n的特征值为 λ 1 \lambda_{1} λ1, λ 2 \lambda_{2} λ2, ⋯ \cdots ⋯ λ n \lambda_{n} λn,则:
∣ λ 1 ∣ 2 + ∣ λ 2 ∣ 2 + ⋯ ∣ λ n ∣ 2 ≤ ∣ ∣ A ∣ ∣ F 2 |\lambda_{1}|^{2}+|\lambda_{2}|^{2}+\cdots |\lambda_{n}|^{2} \leq ||A||_{F}^{2} ∣λ1∣2+∣λ2∣2+⋯∣λn∣2≤∣∣A∣∣F2
且等式成立的充要条件是 A A A为正规矩阵。
特征值的包含区域
上一节给出了特征值大小的估计,这一节介绍一些判别矩阵特征值位置的方法。
Gerschgorin 盖尔圆定理
与上一节类似,我们需要用矩阵元素给出特征值的估计。设 λ \lambda λ为 A = ( a i j ) n × n A=(a_{ij})_{n \times n} A=(aij)n×n的特征值, x = ( x 1 , x 2 , ⋯ , x n ) T x=(x_{1},x_{2},\cdots ,x_{n})^{T} x=(x1,x2,⋯,xn)T为 A A A的属于 λ \lambda λ的特征向量,则由 A x = λ x Ax=\lambda x Ax=λx得:
∑ j = 1 n a i j x j = λ x i ( i = 1 , 2 , ⋯ , n ) \sum_{j=1}^{n}a_{ij}x_{j}=\lambda x_{i} (i=1,2,\cdots , n) j=1∑naijxj=λxi(i=1,2,⋯,n)
x i ( λ − a i i ) = ∑ j = 1 , j ≠ i n a i j x j x_{i}(\lambda -a_{ii}) =\sum_{j=1,j \neq i}^{n}a_{ij}x_{j} xi(λ−aii)=j=1,j=i∑naijxj
∣ λ − a i i ∣ = ∣ ∑ a i j x j x i ∣ ≤ ∑ ∣ a i j ∣ ∣ x j x i ∣ |\lambda-a_{ii}|=|\sum a_{ij} \frac{x_{j}}{x_{i}}| \leq \sum|a_{ij}| |\frac{x_{j}}{x_{i}}| ∣λ−aii∣=∣∑aijxixj∣≤∑∣aij∣∣xixj∣
如果 ∣ x i ∣ ≥ ∣ x j ∣ |x_{i}| \geq |x_{j}| ∣xi∣≥∣xj∣,则 ∣ x j x i ∣ ≤ 1 |\frac{x_{j}}{x_{i}}| \leq 1 ∣xixj∣≤1得:
∣ λ − a i i ∣ = ∑ j = 1 , j ≠ i n ∣ a i j ∣ |\lambda - a_{ii}| = \sum_{j=1,j \neq i}^{n}|a_{ij}| ∣λ−aii∣=j=1,j=i∑n∣aij∣
上述不等式在几何上是一个圆,即特征值落在一个圆中。
- 定义 设 A = ( a i j ) n × n A=(a_{ij})_{n \times n} A=(aij)n×n,记:
R i = ∑ j = 1 , j ≠ i n ∣ a i j ∣ R_{i}=\sum_{j=1 ,j \neq i}^{n} |a_{ij}| Ri=j=1,j=i∑n∣aij∣
称复平面的圆域:
G i = { z ∣ ∣ z − a i i ∣ ≤ R i , z ∈ C } G_{i} = \{z||z-a_{ii}| \leq R_{i} , z \in C\} Gi={z∣∣z−aii∣≤Ri,z∈C}
为 A A A的第 i i i个盖尔圆,称 R i R_{i} Ri为盖尔圆的半径,由于:
x = ( x 1 , x 2 , ⋯ , x n ) x=(x_{1},x_{2},\cdots ,x_{n}) x=(x1,x2,⋯,xn)
的分量中必有一个 x i x_{i} xi使得 ∣ x i ∣ = m a x j ∣ x j ∣ |x_{i}| = max_{j}|x_{j}| ∣xi∣=maxj∣xj∣,所以必有一个 i i i使得:
∣ λ − a i i ∣ ≤ R i |\lambda - a_{ii}| \leq R_{i} ∣λ−aii∣≤Ri
成立,由此得到:
- 定理7.4:矩阵 A ∈ C n × n A \in C^{n \times n} A∈Cn×n的全体特征值都在它的 n n n个盖尔圆构成的并集之中。
注意到 A ∈ C n × n A \in C^{n \times n} A∈Cn×n与 A T A^{T} AT的特征值相同,根据定理7.4可得, A A A的特征值也在 A T A^{T} AT的 n n n个盖尔圆构成的并集之中。称 A T A^{T} AT的盖尔圆为 A A A的列盖尔圆。
根据盖尔圆理论,对任何矩阵 A A A特征值一定满足 ∣ λ − a i i ∣ ≤ R i |\lambda -a_{ii}| \leq R_{i} ∣λ−aii∣≤Ri。若 λ = 0 \lambda =0 λ=0,则 ∣ a i i ∣ ≤ R i |a_{ii}| \leq R_{i} ∣aii∣≤Ri。
从这里可以看出,若矩阵 A A A严格对角占优,即 ∣ a i i ∣ > R i |a_{ii}| > R_{i} ∣aii∣>Ri,则:
λ ≠ 0 , ∣ A ∣ ≠ 0 \lambda \neq 0,|A| \neq 0 λ=0,∣A∣=0
- 推论:若 A A A为实矩阵 A ∈ R n × n A \in R^{n \times n} A∈Rn×n,且 A A A的 n n n个盖尔圆是孤立的,则 A A A有 n n n个互不相同的实特征值。
A A A为实矩阵时,特征方程 ∣ λ E − A ∣ = 0 |\lambda E -A| = 0 ∣λE−A∣=0为实代数方程,它的复根一定成对出现,一定是共轭的,即 a ± i b a \pm ib a±ib的形式,且 ∣ λ − a i i ∣ |\lambda -a_{ii}| ∣λ−aii∣的形式,且 ∣ λ − a i i ∣ ≤ R i |\lambda -a_{ii}| \leq R_{i} ∣λ−aii∣≤Ri中, a i i a_{ii} aii是实数,特征值一定是实数。
特征值的隔离
前面讲述了用盖尔圆分析特征值的方法,当矩阵 A A A与 B B B相似,即 B = C − 1 A C B =C^{-1}AC B=C−1AC时, A A A与 B B B有相同的特征值。利用这一个性质,可以通过改变盖尔圆的大小,分析某个特征值的位置。在这里取比较简单的 C C C,可以取成对角矩阵,且对角线元素为正。
C = d i a g ( c 1 , c 2 , ⋯ , c n ) C=diag(c_{1},c_{2},\cdots ,c_{n}) C=diag(c1,c2,⋯,cn)
B = C A C − 1 = ( a i j c i c j ) n × n B=CAC^{-1} = (a_{ij} \frac{c_{i}}{c_{j}})_{n\times n} B=CAC−1=(aijcjci)n×n
则 A A A与 B B B有相同的特征值,通过适当地选取正数 c 1 c_{1} c1, c 2 c_{2} c2, ⋯ \cdots ⋯, c n c_{n} cn,有可能使每一个盖尔圆包含 A A A的一个特征值。选取 c 1 c_{1} c1, c 2 c_{2} c2, ⋯ \cdots ⋯, c n c_{n} cn的一般原则是,欲使 A A A的第 i i i个盖尔圆缩小,可取 c i < 1 c_{i }<1 ci<1,其余取为1,此时 B B B的其他盖尔圆适量放大;反之,欲使 A A A的第 i i i个盖尔圆放大,可取 c i > 1 c_{i} > 1 ci>1,其余取为1,此时 B B B的其余盖尔圆适量缩小。
我的微信公众号名称:小小何先生
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!