之前指出,矩阵的特征值和特征向量蕴含在相似对角化 A = S − 1 Λ S \boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S} A=S−1ΛS中
下面将看到,“相似对角化”是相似矩阵 A ∼ B \mathbf A \sim \mathbf B A∼B的特例,且一系列相似矩阵都具有相同特征值
- 当 A \mathbf A A有n个无关特征向量,存在一个相似矩阵为对角阵,可以相似对角化 A = S − 1 Λ S \boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S} A=S−1ΛS
- 当 A \mathbf A A没有n个无关特征向量,相似矩阵中只有Jordan标准型(接近对角阵,其中每个Jordan块对应一个无关特征向量),不能相似对角化,只能做近似“对角化”的处理
相似矩阵 Similar matrices
之前说过,
A
\mathbf A
A与
B
\mathbf B
B互为相似矩阵,即
A
∼
B
\mathbf A \sim \mathbf B
A∼B,则它们满足关系
B
=
M
−
1
A
M
\mathbf B=\mathbf {M^{-1}AM}
B=M−1AM
其中,
M
\mathbf M
M称为过渡矩阵,它表现了基与基之间的一个可逆线性变换
其几何意义是,相似矩阵 A \mathbf A A与 B \mathbf B B是同一个线性变换,只不过它们作用于从不同的坐标系(依赖于不同的基向量)
相似矩阵的特点是:
- 大多数情况下,矩阵 A \mathbf A A具有一系列(大量)相似矩阵:任意用一个可逆矩阵 M \mathbf M M就能得到一个相似矩阵 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M−1AM=B
- 一系列相似矩阵具有相同的特征值,线性无关的特征向量个数相等,且特征向量之间也有一定联系
具体而言, A \mathbf A A的特征值和特征向量为 λ \lambda λ和 x \boldsymbol x x,则 B \mathbf B B的特征值和特征向量为 λ \lambda λ和 M − 1 x \mathbf M^{-1}\boldsymbol x M−1x
证明:相似矩阵具有相同的特征值,且特征向量之间也有一定联系
A \mathbf A A与 B \mathbf B B互为相似矩阵,则 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM
A \mathbf A A的特征值: A x = λ x \mathbf A\boldsymbol x=\lambda\boldsymbol x Ax=λx
稍作变形,得到 A x = A M M − 1 x = λ x \mathbf A\boldsymbol x=\mathbf A\mathbf M\mathbf M^{-1}\boldsymbol x=\lambda\boldsymbol x Ax=AMM−1x=λx;
左乘 M − 1 \mathbf M^{-1} M−1得到 ( M − 1 A M ) M − 1 x = λ M − 1 x (\mathbf M^{-1}\mathbf A\mathbf M)\mathbf M^{-1}\boldsymbol x=\lambda\mathbf M^{-1}\boldsymbol x (M−1AM)M−1x=λM−1x
B \mathbf B B的特征值: B ( M − 1 x ) = λ ( M − 1 x ) \mathbf B(\mathbf M^{-1}\boldsymbol x)=\lambda(\mathbf M^{-1}\boldsymbol x) B(M−1x)=λ(M−1x)
- 若 A ∼ B \mathbf A \sim \mathbf B A∼B,则 A k ∼ B k \mathbf A^k \sim \mathbf B^k Ak∼Bk
证明:由于 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM,则 B k = ( M − 1 A M ) K = M − 1 A K M \mathbf B^k=(\mathbf {M^{-1}AM})^K=\mathbf {M^{-1}A^KM} Bk=(M−1AM)K=M−1AKM
这就是说 A k ∼ B k \mathbf A^k \sim \mathbf B^k Ak∼Bk
特征值对相似矩阵的影响
矩阵的特征值情况不同,其具有的相似矩阵不同,下面分情况讨论
特征值互不相同(对角矩阵是特殊的相似矩阵)
一般而言,矩阵 A \mathbf A A具有一系列(大量)相似矩阵:任意用一个可逆矩阵 M \mathbf M M就能得到一个相似矩阵 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M−1AM=B
特征值互不相同时, A \mathbf A A必然具有n个线性无关的特征向量(从而保证下方的特征向量矩阵 S \mathbf S S可逆),则此时可以对角化 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS其中 Λ \mathbf \Lambda Λ为 A \mathbf A A的特征值、 S \mathbf S S为特征向量矩阵
可见:
- 若矩阵
A
\mathbf A
A特征值互不相同,将会得到一个特殊的相似矩阵:
A
∼
对角阵
Λ
\mathbf A \sim 对角阵\mathbf \Lambda
A∼对角阵Λ
这相当于 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M−1AM=B中,取 M = S − 1 \mathbf M=\mathbf S^{-1} M=S−1的情况,得到 S A S − 1 = Λ \mathbf S\mathbf A\mathbf S^{-1}=\mathbf \Lambda SAS−1=Λ - 当然, A \mathbf A A也有其他的相似矩阵:即 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M−1AM=B取其他 M \mathbf M M的情况
- 在 A \mathbf A A的一系列相似矩阵中,对角阵 Λ \mathbf \Lambda Λ是最简洁的一个
例如,对于 A = [ 2 1 1 2 ] \boldsymbol{A}=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right] A=[2112]
取 M = [ − 2 2 2 2 2 2 2 2 ] \mathbf M=\left[\begin{array}{ll}-\frac{\sqrt 2}{2} & \frac{\sqrt 2}{2} \\\frac{\sqrt 2}{2} & \frac{\sqrt 2}{2}\end{array}\right] M=[−22222222],可得 M − 1 A M = Λ = [ 3 0 0 1 ] \mathbf {M^{-1}AM}=\boldsymbol{\Lambda}=\left[\begin{array}{ll}3 & 0 \\0 & 1\end{array}\right] M−1AM=Λ=[3001]
取 M = [ 1 4 0 1 ] \mathbf M=\left[\begin{array}{ll}1 & 4 \\0 & 1\end{array}\right] M=[1041],可得 M − 1 A M = B = [ − 2 − 15 1 6 ] \mathbf {M^{-1}AM}=\boldsymbol{B}=\left[\begin{array}{cc}-2 & -15 \\1 & 6\end{array}\right] M−1AM=B=[−21−156]
重复的特征值
A
\mathbf A
A具有重复的特征值时,则可能无法对角化(关键在于是否有n个线性无关的特征向量)
此时,又要分为两种情况讨论:
1. 有n个线性无关特征向量,可以对角化,但唯一的相似矩阵是它本身
例如 A = [ 4 0 0 4 ] \mathbf A={\left[\begin{array}{ll}4 & 0 \\0 & 4\end{array}\right]} A=[4004],有两个线性无关特征向量
- 可以对角化: A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS,其中 Λ = A \mathbf \Lambda=\mathbf A Λ=A, S = I \mathbf S=\mathbf I S=I,也就是说,特征向量为 [ 1 0 ] {\left[\begin{array}{ll}1\\0 \end{array}\right]} [10] 和 [ 0 1 ] {\left[\begin{array}{ll}0\\1 \end{array}\right]} [01]
- 没有一系列相似矩阵,唯一的相似矩阵是它本身
因为矩阵 A = 4 I \mathbf A=4\mathbf I A=4I,无论如何取,相似矩阵都得到它本身 M − 1 A M = 4 M − 1 I M = 4 I = [ 4 0 0 4 ] \boldsymbol{M}^{-1}\mathbf A\boldsymbol{M} =4 \boldsymbol{M}^{-1} \boldsymbol{I} \boldsymbol{M} =4\mathbf I=\left[\begin{array}{ll}4 & 0 \\0 & 4\end{array}\right] M−1AM=4M−1IM=4I=[4004]
2.无法对角化,有一系列相似矩阵,但相似矩阵中没有对角阵,只有若尔当标准型
例如 A = [ 4 1 0 4 ] \mathbf A={\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} A=[4014],只有一个线性无关的特征向量
- 由于只有一个线性无关的特征向量, A \mathbf A A不能对角化
另一理解:假设可以对角化,那么其相似矩阵为特征值矩阵,即上面1中的矩阵 4 I 4\mathbf I 4I,而上面说过 4 I 4\mathbf I 4I只与自己相似
- 因此,虽然 A \mathbf A A有一系列的相似矩阵,但是所有相似矩阵中,“最好”的、最接近对角阵的(但无法真正对角化)一个就是 [ 4 1 0 4 ] {\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} [4014]
注意,对于这种不能实现对角化的情况,我们在一系列相似矩阵中,挑选出最简洁、最接近对角矩阵的那一个,称为若尔当标准型Jordan form;
例如,这里有一系列相似矩阵 [ 4 10 0 4 ] {\left[\begin{array}{ll}4 & 10 \\0 & 4\end{array}\right]} [40104]、 [ 4 1 0 6 0 4 ] {\left[\begin{array}{ll}4 & 10^6 \\0 & 4\end{array}\right]} [401064]等,其中的 [ 4 1 0 4 ] {\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} [4014]若尔当标准型
另外,还可以列举更多上述的“一系列相似矩阵”:根据相似不变量“迹”和“行列式”,只要矩阵的迹为8,行列式为16,就是这里的相似矩阵
例如 [ 5 1 − 1 3 ] , [ 4 0 17 4 ] , [ a ∗ ∗ 8 − a ] … … \left[\begin{array}{cc}5 & 1 \\-1 & 3\end{array}\right], \left[\begin{array}{cc}4 & 0 \\17 & 4\end{array}\right], \left[\begin{array}{cc}a & * \\* & 8-a\end{array}\right] \ldots \ldots [5−113],[41704],[a∗∗8−a]……它们都不能对角化(因为若可以对角化则按照特征值可知结果为4I,而4I只与自己相似)
若尔当标准型 Jordan form
根据上面所述,矩阵可以分为两种类型:
- 如果矩阵 A \mathbf A A有n个线性无关的特征向量(可能会有重复特征值),可以对角化,那么其相似矩阵中最简洁的一个是对角矩阵,获取方式就是矩阵的对角化操作 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS(即:求特征值和特征向量)
- 如果矩阵
A
\mathbf A
A没有n个线性无关的特征向量(必然有重特征值),不能对角化,其相似矩阵中最简洁、“最接近对角矩阵”的那一个,称为若尔当标准型 Jordan form
也可以说,若尔当标准型就是对 不可对角化的矩阵完成近似“对角化”的处理
一般的,任意n阶矩阵 A \mathbf A A一定相似于一个若尔当矩阵Jordan matrix J \mathbf J J,该矩阵称为 A \mathbf A A的若尔当标准型
- 若尔当矩阵 J \mathbf J J由多个若尔当块构成 J = [ J 1 0 ⋯ 0 0 J 2 ⋯ 0 ⋮ ⋱ ⋮ 0 0 ⋯ J d ] \boldsymbol{J}=\left[\begin{array}{cccc} \boldsymbol{J}_{1} & 0 & \cdots & 0 \\ 0 & \boldsymbol{J}_{2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & \boldsymbol{J}_{d} \end{array}\right] J=⎣ ⎡J10⋮00J20⋯⋯⋱⋯00⋮Jd⎦ ⎤
- 其中,若尔当块形如 J i = [ λ i 1 0 ⋯ 0 0 λ i 1 ⋱ ⋮ 0 0 ⋱ ⋱ 0 ⋮ ⋱ ⋱ 1 0 0 ⋯ 0 λ i ] \boldsymbol{J i}=\left[\begin{array}{ccccc} \lambda_{i} & 1 & 0 & \cdots & 0 \\ 0 & \lambda_{i} & 1 & \ddots & \vdots \\ 0 & 0 & \ddots & \ddots & 0 \\ \vdots & & \ddots & \ddots & 1 \\ 0 & 0 & \cdots & 0 & \lambda_{i} \end{array}\right] Ji=⎣ ⎡λi00⋮01λi0001⋱⋱⋯⋯⋱⋱⋱00⋮01λi⎦ ⎤,对角线上全是重特征值 λ i \lambda_{i} λi,上对角线全是1,每个若尔当块对应一个(线性无关的)特征向量(也就是说,有多少个线性无关特征向量,就有多少个若尔当块)
- 实际上,对于可以对角化的矩阵,其若尔当标准型就是对角矩阵
Λ
\mathbf \Lambda
Λ,对应于「所有若尔当块都为一阶」的特殊情况(即:有n个线性无关特征向量)
而如果出现重特征值,则特征向量个数变少(若尔当块数量变少),这就是更一般的情况 - 两个矩阵,(即使特征值相同、特征向量个数相等),其若尔当标准型(中的若尔当块)完全相同时,这两个矩阵才是相似的
例如,对于 A = [ 0 1 7 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \boldsymbol{A}=\left[\begin{array}{llll} 0 & 1 & 7 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}\right] A=⎣ ⎡0000100071000000⎦ ⎤和 C = [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \boldsymbol{C} =\left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}\right] C=⎣ ⎡0000100000000010⎦ ⎤,
虽然两个矩阵都具有四重特征值 λ 1 = λ 2 = λ 3 = λ 4 = 0 \lambda_{1}=\lambda_{2}=\lambda_{3}=\lambda_{4}=0 λ1=λ2=λ3=λ4=0、都只有两个线性无关的特征向量(求解 A x = 0 x \mathbf A\boldsymbol x=0\boldsymbol x Ax=0x,由于矩阵的秩 r = 2 r=2 r=2,故零空间只有 n − r = 4 − 2 = 2 n-r=4-2=2 n−r=4−2=2个线性无关的基向量),但是两个矩阵不相似,原因如下:
A \boldsymbol{A} A的若尔当标准型为 [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}\right] ⎣ ⎡0000100001000000⎦ ⎤,而 C \boldsymbol{C} C的若尔当标准型为它本身 [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}\right] ⎣ ⎡0000100000000010⎦ ⎤,
两个若尔当标准型不同(一个是三阶若尔当块+一阶若尔当块,一个是两个二阶若尔当块),故两个矩阵不相似
总结:
-
对于任意的矩阵,虽然并不一定能对角化并得到一个对角矩阵 Λ \mathbf \Lambda Λ作为其相似矩阵(仅当有n个线性无关特征向量时可以这样做,对应于 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS中 S \mathbf S S可逆);
-
但是若尔当标准型能对(不可对角化的)任意矩阵完成近似“对角化”的处理
-
然而要注意,若尔当标准型在代数上的理论意义大于实际应用意义,因为一般的矩阵很难化简为若尔当标准型(这依赖于多个特征值严格相等,即必须准确确定所有特征值和矩阵的秩,矩阵元素稍微改变特征值就会改变,对于数值计算而言这并不是件好事)
这也是为什么在Jordan标准型 A = M − 1 J M \mathbf A=\mathbf M^{-1}\mathbf J\mathbf M A=M−1JM中,很少关注如何求解相似变换矩阵 M \mathbf M M
对于矩阵可以对角化的情况,Jordan标准型是对角矩阵,此时求解出A的全部特征值和特征向量(就是做对角化),即可得到 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS,其中Jordan标准型 J = Λ \mathbf J=\mathbf \Lambda J=Λ,相似变换矩阵 M = S \mathbf M=\mathbf S M=S
对于一般情形可以解矩阵方程(但计算量很大),也可以把A和I写成分块矩阵的形式(A在上,I在下),对A进行“配套”的初等行列变换,I进行相应的初等列变换,那么当A化为J时,I就化为了S。(参考:袁晖坪.矩阵的Jordan标准型及其相似变换矩阵)
reference:MIT—线性代数笔记28 相似矩阵和若尔当标准型