线性代数学习笔记9-3:相似矩阵、对角矩阵是特殊的相似矩阵、若尔当标准型Jordan form

之前指出,矩阵的特征值和特征向量蕴含在相似对角化 A = S − 1 Λ S \boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S} A=S1ΛS

下面将看到,“相似对角化”是相似矩阵 A ∼ B \mathbf A \sim \mathbf B AB的特例,且一系列相似矩阵都具有相同特征值

  • A \mathbf A A有n个无关特征向量,存在一个相似矩阵为对角阵,可以相似对角化 A = S − 1 Λ S \boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S} A=S1ΛS
  • A \mathbf A A没有n个无关特征向量,相似矩阵中只有Jordan标准型(接近对角阵,其中每个Jordan块对应一个无关特征向量),不能相似对角化,只能做近似“对角化”的处理

相似矩阵 Similar matrices

之前说过, A \mathbf A A B \mathbf B B互为相似矩阵,即 A ∼ B \mathbf A \sim \mathbf B AB,则它们满足关系 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M1AM
其中, M \mathbf M M称为过渡矩阵,它表现了基与基之间的一个可逆线性变换

其几何意义是,相似矩阵 A \mathbf A A B \mathbf B B是同一个线性变换,只不过它们作用于从不同的坐标系(依赖于不同的基向量)

相似矩阵的特点是:

  • 大多数情况下,矩阵 A \mathbf A A具有一系列(大量)相似矩阵:任意用一个可逆矩阵 M \mathbf M M就能得到一个相似矩阵 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M1AM=B
  • 一系列相似矩阵具有相同的特征值,线性无关的特征向量个数相等,且特征向量之间也有一定联系
    具体而言, A \mathbf A A的特征值和特征向量为 λ \lambda λ x \boldsymbol x x,则 B \mathbf B B的特征值和特征向量为 λ \lambda λ M − 1 x \mathbf M^{-1}\boldsymbol x M1x

证明:相似矩阵具有相同的特征值,且特征向量之间也有一定联系
A \mathbf A A B \mathbf B B互为相似矩阵,则 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M1AM
A \mathbf A A的特征值: A x = λ x \mathbf A\boldsymbol x=\lambda\boldsymbol x Ax=λx
稍作变形,得到 A x = A M M − 1 x = λ x \mathbf A\boldsymbol x=\mathbf A\mathbf M\mathbf M^{-1}\boldsymbol x=\lambda\boldsymbol x Ax=AMM1x=λx
左乘 M − 1 \mathbf M^{-1} M1得到 ( M − 1 A M ) M − 1 x = λ M − 1 x (\mathbf M^{-1}\mathbf A\mathbf M)\mathbf M^{-1}\boldsymbol x=\lambda\mathbf M^{-1}\boldsymbol x (M1AM)M1x=λM1x
B \mathbf B B的特征值: B ( M − 1 x ) = λ ( M − 1 x ) \mathbf B(\mathbf M^{-1}\boldsymbol x)=\lambda(\mathbf M^{-1}\boldsymbol x) B(M1x)=λ(M1x)

  • A ∼ B \mathbf A \sim \mathbf B AB,则 A k ∼ B k \mathbf A^k \sim \mathbf B^k AkBk

证明:由于 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M1AM,则 B k = ( M − 1 A M ) K = M − 1 A K M \mathbf B^k=(\mathbf {M^{-1}AM})^K=\mathbf {M^{-1}A^KM} Bk=(M1AM)K=M1AKM
这就是说 A k ∼ B k \mathbf A^k \sim \mathbf B^k AkBk

特征值对相似矩阵的影响

矩阵的特征值情况不同,其具有的相似矩阵不同,下面分情况讨论

特征值互不相同(对角矩阵是特殊的相似矩阵)

一般而言,矩阵 A \mathbf A A具有一系列(大量)相似矩阵:任意用一个可逆矩阵 M \mathbf M M就能得到一个相似矩阵 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M1AM=B

特征值互不相同时, A \mathbf A A必然具有n个线性无关的特征向量(从而保证下方的特征向量矩阵 S \mathbf S S可逆),则此时可以对角化 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S1ΛS其中 Λ \mathbf \Lambda Λ A \mathbf A A的特征值、 S \mathbf S S为特征向量矩阵

可见:

  • 若矩阵 A \mathbf A A特征值互不相同,将会得到一个特殊的相似矩阵 A ∼ 对角阵 Λ \mathbf A \sim 对角阵\mathbf \Lambda A对角阵Λ
    这相当于 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M1AM=B中,取 M = S − 1 \mathbf M=\mathbf S^{-1} M=S1的情况,得到 S A S − 1 = Λ \mathbf S\mathbf A\mathbf S^{-1}=\mathbf \Lambda SAS1=Λ
  • 当然, A \mathbf A A也有其他的相似矩阵:即 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M1AM=B取其他 M \mathbf M M的情况
  • A \mathbf A A的一系列相似矩阵中,对角阵 Λ \mathbf \Lambda Λ最简洁的一个

例如,对于 A = [ 2 1 1 2 ] \boldsymbol{A}=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right] A=[2112]
M = [ − 2 2 2 2 2 2 2 2 ] \mathbf M=\left[\begin{array}{ll}-\frac{\sqrt 2}{2} & \frac{\sqrt 2}{2} \\\frac{\sqrt 2}{2} & \frac{\sqrt 2}{2}\end{array}\right] M=[22 22 22 22 ],可得 M − 1 A M = Λ = [ 3 0 0 1 ] \mathbf {M^{-1}AM}=\boldsymbol{\Lambda}=\left[\begin{array}{ll}3 & 0 \\0 & 1\end{array}\right] M1AM=Λ=[3001]
M = [ 1 4 0 1 ] \mathbf M=\left[\begin{array}{ll}1 & 4 \\0 & 1\end{array}\right] M=[1041],可得 M − 1 A M = B = [ − 2 − 15 1 6 ] \mathbf {M^{-1}AM}=\boldsymbol{B}=\left[\begin{array}{cc}-2 & -15 \\1 & 6\end{array}\right] M1AM=B=[21156]

重复的特征值

A \mathbf A A具有重复的特征值时,则可能无法对角化(关键在于是否有n个线性无关的特征向量)
此时,又要分为两种情况讨论:

1. 有n个线性无关特征向量,可以对角化,但唯一的相似矩阵是它本身

例如 A = [ 4 0 0 4 ] \mathbf A={\left[\begin{array}{ll}4 & 0 \\0 & 4\end{array}\right]} A=[4004],有两个线性无关特征向量

  • 可以对角化: A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S1ΛS,其中 Λ = A \mathbf \Lambda=\mathbf A Λ=A S = I \mathbf S=\mathbf I S=I,也就是说,特征向量为 [ 1 0 ] {\left[\begin{array}{ll}1\\0 \end{array}\right]} [10] [ 0 1 ] {\left[\begin{array}{ll}0\\1 \end{array}\right]} [01]
  • 没有一系列相似矩阵,唯一的相似矩阵是它本身
    因为矩阵 A = 4 I \mathbf A=4\mathbf I A=4I,无论如何取,相似矩阵都得到它本身 M − 1 A M = 4 M − 1 I M = 4 I = [ 4 0 0 4 ] \boldsymbol{M}^{-1}\mathbf A\boldsymbol{M} =4 \boldsymbol{M}^{-1} \boldsymbol{I} \boldsymbol{M} =4\mathbf I=\left[\begin{array}{ll}4 & 0 \\0 & 4\end{array}\right] M1AM=4M1IM=4I=[4004]
2.无法对角化,有一系列相似矩阵,但相似矩阵中没有对角阵,只有若尔当标准型

例如 A = [ 4 1 0 4 ] \mathbf A={\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} A=[4014],只有一个线性无关的特征向量

  • 由于只有一个线性无关的特征向量, A \mathbf A A不能对角化

另一理解:假设可以对角化,那么其相似矩阵为特征值矩阵,即上面1中的矩阵 4 I 4\mathbf I 4I,而上面说过 4 I 4\mathbf I 4I只与自己相似

  • 因此,虽然 A \mathbf A A有一系列的相似矩阵,但是所有相似矩阵中,“最好”的、最接近对角阵的(但无法真正对角化)一个就是 [ 4 1 0 4 ] {\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} [4014]

注意,对于这种不能实现对角化的情况,我们在一系列相似矩阵中,挑选出最简洁、最接近对角矩阵的那一个,称为若尔当标准型Jordan form

例如,这里有一系列相似矩阵 [ 4 10 0 4 ] {\left[\begin{array}{ll}4 & 10 \\0 & 4\end{array}\right]} [40104] [ 4 1 0 6 0 4 ] {\left[\begin{array}{ll}4 & 10^6 \\0 & 4\end{array}\right]} [401064]等,其中的 [ 4 1 0 4 ] {\left[\begin{array}{ll}4 & 1 \\0 & 4\end{array}\right]} [4014]若尔当标准型

另外,还可以列举更多上述的“一系列相似矩阵”:根据相似不变量“迹”和“行列式”,只要矩阵的迹为8,行列式为16,就是这里的相似矩阵
例如 [ 5 1 − 1 3 ] , [ 4 0 17 4 ] , [ a ∗ ∗ 8 − a ] … … \left[\begin{array}{cc}5 & 1 \\-1 & 3\end{array}\right], \left[\begin{array}{cc}4 & 0 \\17 & 4\end{array}\right], \left[\begin{array}{cc}a & * \\* & 8-a\end{array}\right] \ldots \ldots [5113],[41704],[a8a]……它们都不能对角化(因为若可以对角化则按照特征值可知结果为4I,而4I只与自己相似)

若尔当标准型 Jordan form

根据上面所述,矩阵可以分为两种类型:

  1. 如果矩阵 A \mathbf A A有n个线性无关的特征向量(可能会有重复特征值),可以对角化,那么其相似矩阵中最简洁的一个是对角矩阵,获取方式就是矩阵的对角化操作 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S1ΛS(即:求特征值和特征向量)
  2. 如果矩阵 A \mathbf A A没有n个线性无关的特征向量(必然有重特征值),不能对角化,其相似矩阵中最简洁、“最接近对角矩阵”的那一个,称为若尔当标准型 Jordan form
    也可以说,若尔当标准型就是对 不可对角化的矩阵完成近似“对角化”的处理

一般的,任意n阶矩阵 A \mathbf A A一定相似于一个若尔当矩阵Jordan matrix J \mathbf J J,该矩阵称为 A \mathbf A A的若尔当标准型

  • 若尔当矩阵 J \mathbf J J由多个若尔当块构成 J = [ J 1 0 ⋯ 0 0 J 2 ⋯ 0 ⋮ ⋱ ⋮ 0 0 ⋯ J d ] \boldsymbol{J}=\left[\begin{array}{cccc} \boldsymbol{J}_{1} & 0 & \cdots & 0 \\ 0 & \boldsymbol{J}_{2} & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & \cdots & \boldsymbol{J}_{d} \end{array}\right] J= J1000J2000Jd
  • 其中,若尔当块形如 J i = [ λ i 1 0 ⋯ 0 0 λ i 1 ⋱ ⋮ 0 0 ⋱ ⋱ 0 ⋮ ⋱ ⋱ 1 0 0 ⋯ 0 λ i ] \boldsymbol{J i}=\left[\begin{array}{ccccc} \lambda_{i} & 1 & 0 & \cdots & 0 \\ 0 & \lambda_{i} & 1 & \ddots & \vdots \\ 0 & 0 & \ddots & \ddots & 0 \\ \vdots & & \ddots & \ddots & 1 \\ 0 & 0 & \cdots & 0 & \lambda_{i} \end{array}\right] Ji= λi0001λi00010001λi ,对角线上全是重特征值 λ i \lambda_{i} λi,上对角线全是1,每个若尔当块对应一个(线性无关的)特征向量(也就是说,有多少个线性无关特征向量,就有多少个若尔当块)
  • 实际上,对于可以对角化的矩阵,其若尔当标准型就是对角矩阵 Λ \mathbf \Lambda Λ,对应于「所有若尔当块都为一阶」的特殊情况(即:有n个线性无关特征向量
    而如果出现重特征值,则特征向量个数变少(若尔当块数量变少),这就是更一般的情况
  • 两个矩阵,(即使特征值相同、特征向量个数相等),其若尔当标准型(中的若尔当块)完全相同时,这两个矩阵才是相似的

例如,对于 A = [ 0 1 7 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \boldsymbol{A}=\left[\begin{array}{llll} 0 & 1 & 7 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}\right] A= 0000100071000000 C = [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \boldsymbol{C} =\left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}\right] C= 0000100000000010 ,
虽然两个矩阵都具有四重特征值 λ 1 = λ 2 = λ 3 = λ 4 = 0 \lambda_{1}=\lambda_{2}=\lambda_{3}=\lambda_{4}=0 λ1=λ2=λ3=λ4=0、都只有两个线性无关的特征向量(求解 A x = 0 x \mathbf A\boldsymbol x=0\boldsymbol x Ax=0x,由于矩阵的秩 r = 2 r=2 r=2,故零空间只有 n − r = 4 − 2 = 2 n-r=4-2=2 nr=42=2个线性无关的基向量),但是两个矩阵不相似,原因如下:
A \boldsymbol{A} A的若尔当标准型为 [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}\right] 0000100001000000 ,而 C \boldsymbol{C} C的若尔当标准型为它本身 [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}\right] 0000100000000010
两个若尔当标准型不同(一个是三阶若尔当块+一阶若尔当块,一个是两个二阶若尔当块),故两个矩阵不相似

总结:

  • 对于任意的矩阵,虽然并不一定能对角化并得到一个对角矩阵 Λ \mathbf \Lambda Λ作为其相似矩阵(仅当有n个线性无关特征向量时可以这样做,对应于 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S1ΛS S \mathbf S S可逆);

  • 但是若尔当标准型能对(不可对角化的)任意矩阵完成近似“对角化”的处理

  • 然而要注意,若尔当标准型在代数上的理论意义大于实际应用意义,因为一般的矩阵很难化简为若尔当标准型(这依赖于多个特征值严格相等,即必须准确确定所有特征值和矩阵的秩,矩阵元素稍微改变特征值就会改变,对于数值计算而言这并不是件好事)
    这也是为什么在Jordan标准型 A = M − 1 J M \mathbf A=\mathbf M^{-1}\mathbf J\mathbf M A=M1JM中,很少关注如何求解相似变换矩阵 M \mathbf M M

对于矩阵可以对角化的情况,Jordan标准型是对角矩阵,此时求解出A的全部特征值和特征向量(就是做对角化),即可得到 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S1ΛS,其中Jordan标准型 J = Λ \mathbf J=\mathbf \Lambda J=Λ,相似变换矩阵 M = S \mathbf M=\mathbf S M=S
对于一般情形可以解矩阵方程(但计算量很大),也可以把A和I写成分块矩阵的形式(A在上,I在下),对A进行“配套”的初等行列变换,I进行相应的初等列变换,那么当A化为J时,I就化为了S。(参考:袁晖坪.矩阵的Jordan标准型及其相似变换矩阵)
reference:MIT—线性代数笔记28 相似矩阵和若尔当标准型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值