警告:本文仅作为笔者对整个 J o r d a n Jordan Jordan分解脉络的思考和理解,所用公式定理可能表述不严谨,且也不对其进行严格的数学证明。故本文仅适合学完 J o r d a n Jordan Jordan分解后一头雾水的读者,对完全没学过 J o r d a n Jordan Jordan分解的人并不友好!
由 S c h u r Schur Schur定理知,任一复方阵相似于上三角矩阵。如果是更特殊的单纯矩阵,我们可以将其“相似到”对角矩阵。一个很自然的问题是,对于其他一般的矩阵而言,其能“相似到”的介于一般的上三角矩阵和特殊的对角矩阵之间的最简形式是什么样子?
这个问题似乎不难回答, S c h u r Schur Schur分解已经帮助我们找到任一复方阵能“相似到”的上三角形式,离最终的最简形式好像只有一步之遥了。实则不然,这一小步很难直接迈过去。在 n n n阶单纯矩阵相似对角化的过程中,我们是将它的 n n n个线性无关的特征向量组装成可逆矩阵 P P P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ,从而完成对角化。但是非单纯矩阵一定找不到 n n n个线性无关的特征向量,那也就注定无法直接构造相应的矩阵 P P P。
为此,引入 λ \lambda λ矩阵的概念和理论帮助我们绕路而行,曲线救国。
定理1 两个 λ \lambda λ矩阵相抵 ⇔ \Leftrightarrow ⇔相同的各阶行列式因子 ⇔ \Leftrightarrow ⇔相同的不变因子(相同的 S m i t h Smith Smith标准形) ⇔ \Leftrightarrow ⇔相等的秩和相同的初等因子
定理 1 1 1涉及到的理论一般矩阵论的教科书都会介绍到,本文不详细展开,懂的都懂。下面的定理 2 2 2则是联系数字矩阵与 λ \lambda λ矩阵的关键定理:
定理2 复方阵 A A A和 B B B相似当且仅当它们的特征矩阵 λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B相抵
因为有了定理 1 1 1和定理 2 2 2,当给出一个数字矩阵 A A A,我们希望找到一个与之相似而又形式较为简单(介于一般的上三角矩阵和特殊的对角矩阵之间)的数字矩阵 B B B时,我们并不一定要在数字矩阵的苦海内挣扎,而是可以通过找到与 λ I − A \lambda I-A λI−A相抵的另一个 λ \lambda λ矩阵,那么这个 λ \lambda λ矩阵所对应的数字矩阵和原来的 A A A一定是相似的。在此基础上,如果我们还能够精心设计这个 λ \lambda λ矩阵使得这个 λ \lambda λ矩阵所对应的数字矩阵恰是我们想要的介于一般的上三角矩阵和特殊的对角矩阵之间的最简形式,那就完成了我们的目标!
所以如果把定理 1 1 1和定理 2 2 2连起来写就是这样的:
复方阵 A A A和 B B B相似 ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B相抵 ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B具有相同的各阶行列式因子 ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B具有相同的不变因子(相同的 S m i t h Smith Smith标准形) ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B具有相等的秩和相同的初等因子
实际上对于两个 n n n阶复方阵 A A A和 B B B(应该没有人会去判定不同阶的矩阵是否相似的吧)而言,它们的特征矩阵 λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B一定都是满秩的,故秩自然相等皆为 n n n,所以上面一系列的等价条件最后一个可以把“具有相等的秩”这一条删去,即:
复方阵 A A A和 B B B相似 ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B相抵 ⇔ \Leftrightarrow ⇔… ⇔ \Leftrightarrow ⇔ λ I − A \lambda I-A λI−A与 λ I − B \lambda I-B λI−B具有相同的初等因子
现在,我们的任务变成了要去构造一个与 λ I − A \lambda I-A λI−A相抵的 λ \lambda λ矩阵,且它的形式也必须要比较简单(否则它对应的数字矩阵形式不会简单)。又一个很自然的问题是, λ \lambda λ矩阵相抵的充要条件有很多(行列式因子/不变因子/初等因子),我们到底选择哪一个去构造?下面的定理 3 3 3或许能给我们一些提示:
定理3 设 λ \lambda λ矩阵 D ( λ ) D(\lambda) D(λ)为对角块矩阵,即 D ( λ ) = d i a g ( D 1 ( λ ) , ⋯ , D s ( λ ) ) D(\lambda)=diag(D_1(\lambda),\cdots,D_s(\lambda)) D(λ)=diag(D1(λ),⋯,Ds(λ))则 D 1 ( λ ) , ⋯ , D s ( λ ) D_1(\lambda),\cdots,D_s(\lambda) D1(λ),⋯,Ds(λ)初等因子的全体就是 D ( λ ) D(\lambda) D(λ)的全部初等因子,其中 D i ( λ ) ( i = 1 , ⋯ , s ) D_i(\lambda)(i=1,\cdots,s) Di(λ)(i=1,⋯,s)是适当阶数的 λ \lambda λ矩阵
这意味着如果对于特征矩阵 λ I − A \lambda I-A λI−A的每个初等因子,我们都去构造一个含有与之相同且唯一的初等因子的 λ \lambda λ矩阵 D i ( λ ) D_i(\lambda) Di(λ),再把这一系列 D i ( λ ) D_i(\lambda) Di(λ)组成大的对角块矩阵 D ( λ ) D(\lambda) D(λ),那么此时的 D ( λ ) D(\lambda) D(λ)不就和 λ I − A \lambda I-A λI−A具有完全一致的初等因子了吗,若再将 D ( λ ) D(\lambda) D(λ)视作数字矩阵 D D D的特征矩阵 λ I − D \lambda I-D λI−D,那么 D D D和 A A A就是相似的。
再一个很自然的问题,如何去精心设计上面提到的一系列
D
i
(
λ
)
D_i(\lambda)
Di(λ)呢?也就是说,对于
λ
I
−
A
\lambda I-A
λI−A的第
i
i
i个形如
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni的初等因子,如何构造相应的
D
i
(
λ
)
D_i(\lambda)
Di(λ)使得它的初等因子有且仅有一个,恰为
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni。这里我们需要调用自己惊人的注意力,发现这样一个
λ
\lambda
λ矩阵
[
λ
−
λ
i
−
1
λ
−
λ
i
−
1
⋱
⋱
λ
−
λ
i
−
1
λ
−
λ
i
]
n
i
×
n
i
(1)
\left[ \begin{matrix} \lambda-\lambda_i & -1 \\ & \lambda-\lambda_i & -1\\ & & \ddots & \ddots\\ & & & \lambda-\lambda_i & -1\\ & & & & \lambda-\lambda_i \\ \end{matrix} \right]_{n_i \times n_i} \tag{1}
λ−λi−1λ−λi−1⋱⋱λ−λi−1λ−λi
ni×ni(1)求矩阵
(
1
)
(1)
(1)的初等因子
⇒
\Rightarrow
⇒求不变因子
⇒
\Rightarrow
⇒求各阶行列式因子,矩阵
(
1
)
(1)
(1)的各阶行列式因子我们不从
1
1
1阶慢慢开始往高阶看,我们从高阶往低阶看,矩阵
(
1
)
(1)
(1)的
n
i
n_i
ni阶行列式因子即为其本身的行列式
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni,再到它的
n
i
−
1
n_i-1
ni−1阶行列式因子,我们只需要观察矩阵
(
1
)
(1)
(1)删去第一列和最后一行元素后留下来的右上角的
n
i
−
1
n_i-1
ni−1阶子块
(
2
)
(2)
(2)即可
[
−
1
λ
−
λ
i
−
1
⋱
⋱
λ
−
λ
i
−
1
]
(
n
i
−
1
)
×
(
n
i
−
1
)
(2)
\left[ \begin{matrix} & -1 \\ & \lambda-\lambda_i & -1\\ & & \ddots & \ddots\\ & & & \lambda-\lambda_i & -1\\ \end{matrix} \right]_{(n_i-1)\times (n_i-1)} \tag{2}
−1λ−λi−1⋱⋱λ−λi−1
(ni−1)×(ni−1)(2)我们发现矩阵
(
2
)
(2)
(2)的行列式要么
+
1
+1
+1要么
−
1
-1
−1,这意味着矩阵
(
1
)
(1)
(1)的全部
n
i
−
1
n_i-1
ni−1阶子式的首
1
1
1最大公因式只能是
1
1
1,即矩阵
(
1
)
(1)
(1)的
n
i
−
1
n_i-1
ni−1阶行列式因子必为
1
1
1。同理,我们再把
(
2
)
(2)
(2)的第一行和第一列元素删去,又得到矩阵
(
1
)
(1)
(1)的
n
i
−
2
n_i-2
ni−2阶子块,这个子块行列式同样要么
+
1
+1
+1要么
−
1
-1
−1,又说明矩阵
(
1
)
(1)
(1)的
n
i
−
2
n_i-2
ni−2阶行列式因子也必为
1
1
1……一直进行下去,我们得出结论:矩阵
(
1
)
(1)
(1)的前
n
i
−
1
n_i-1
ni−1阶行列式因子均为
1
1
1,
n
i
n_i
ni阶行列式因子为
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni
⇒
\Rightarrow
⇒矩阵
(
1
)
(1)
(1)的前
n
i
−
1
n_i-1
ni−1个不变因子均为
1
1
1,第
n
i
n_i
ni个不变因子为
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni
⇒
\Rightarrow
⇒矩阵
(
1
)
(1)
(1)有且仅有一个初等因子
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni。
至此,我们终于说明了构造的矩阵 ( 1 ) (1) (1)就是符合要求的 D i ( λ ) D_i(\lambda) Di(λ),由于
这两种顺序得到的结果是一样的,我们可以先把矩阵 ( 1 ) (1) (1)求出它对应的数字矩阵 ( 3 ) (3) (3)
[ λ i 1 λ i 1 ⋱ ⋱ λ i 1 λ i ] n i × n i (3) \left[ \begin{matrix} \lambda_i & 1 \\ & \lambda_i & 1\\ & & \ddots & \ddots\\ & & & \lambda_i & 1\\ & & & & \lambda_i \\ \end{matrix} \right]_{n_i \times n_i} \tag{3} λi1λi1⋱⋱λi1λi ni×ni(3)那么恭喜你,成功解锁 J o r d a n Jordan Jordan块!针对 λ I − A \lambda I-A λI−A的每个初等因子,我们都构造出了一个相应的 J o r d a n Jordan Jordan块,再把这些 J o r d a n Jordan Jordan块组装为对角块矩阵,就得到了矩阵 A A A的 J o r d a n Jordan Jordan标准形! J o r d a n Jordan Jordan标准形非零元素只会出现在主对角线和其上方的次对角线中,其他位置一定都是 0 0 0!
重新审视上述从矩阵
(
1
)
(1)
(1)到矩阵
(
2
)
(2)
(2)再到矩阵
(
3
)
(3)
(3)的分析过程,我们不难发现当
J
o
r
d
a
n
Jordan
Jordan块(即矩阵
(
3
)
(3)
(3))发生如下
3
3
3种变化时都不影响它所对应的那个特征矩阵有且仅有一个初等因子
(
λ
−
λ
i
)
n
i
(\lambda-\lambda_i)^{n_i}
(λ−λi)ni:
①次对角线元素不是全
1
1
1而是全
2
2
2;
②次对角线元素是彼此不相同的非零数;
③主对角线下方的次对角线全
1
1
1,上方的次对角线全0(其实就是做个转置).
也就是说这三种变化后的矩阵我们都可以认为是广义上的
J
o
r
d
a
n
Jordan
Jordan块。
最后一个很自然的问题,
J
o
r
d
a
n
Jordan
Jordan块(即矩阵
(
3
)
(3)
(3))次对角线上的非零元素能不能丢掉其中若干个使其为
0
0
0?其实这个问题相当于在问我们构造出的
J
o
r
d
a
n
Jordan
Jordan标准形到底是不是我们一开始提出的介于一般的上三角矩阵和特殊的对角矩阵之间的最简形式——其实确实是的。我们可以举个例子,不做严格证明,因为我不会。
[
1
1
1
1
1
]
(4)
\left[ \begin{matrix} 1 & 1 \\ & 1 & 1\\ & & 1\\ \end{matrix} \right] \tag{4}
11111
(4)显然矩阵
(
4
)
(4)
(4)是一个
J
o
r
d
a
n
Jordan
Jordan块,当我们把次对角线上的两个
1
1
1的一个或者两个变成
0
0
0时,再去计算它的初等因子你会发现和原来不一样了,也就是说这个
J
o
r
d
a
n
Jordan
Jordan块已经不能再简化了。
最后,当给定数字矩阵
A
A
A时,我们可以先找到它的
J
o
r
d
a
n
Jordan
Jordan标准形
J
J
J,再去寻找某个可逆矩阵
P
P
P使得
P
−
1
A
P
=
J
P^{-1}AP=J
P−1AP=J,改写一下就是
A
=
P
J
P
−
1
(5)
A=PJP^{-1}\tag{5}
A=PJP−1(5)此即
J
o
r
d
a
n
Jordan
Jordan分解。
讲到这里我还想补充一点,前面我们提到
J
o
r
d
a
n
Jordan
Jordan块进行第③种变化(做转置)时其特征矩阵的初等因子并没有发生改变,仍然可以视为我们所需要的那个
J
o
r
d
a
n
Jordan
Jordan块。如果所有的
J
o
r
d
a
n
Jordan
Jordan块都进行转置,其实相当于把
A
A
A的
J
o
r
d
a
n
Jordan
Jordan标准形
J
J
J进行转置得到
J
T
J^{T}
JT,它们的特征矩阵
λ
I
−
J
\lambda I-J
λI−J和
λ
I
−
J
T
\lambda I-J^{T}
λI−JT具有完全一致的初等因子
⇒
\Rightarrow
⇒
λ
I
−
J
\lambda I-J
λI−J和
λ
I
−
J
T
\lambda I-J^{T}
λI−JT相抵
⇒
\Rightarrow
⇒对应的数字矩阵
J
J
J和
J
T
J^{T}
JT相似。根据矩阵相似的传递性,我们有
A
∼
J
∼
J
T
(6)
A\sim J\sim J^{T}\tag{6}
A∼J∼JT(6)同时,我们对式
(
5
)
(5)
(5)两边同取转置得
A
T
=
(
P
T
)
−
1
J
T
P
T
(7)
A^{T}=(P^{T})^{-1}J^{T}P^{T}\tag{7}
AT=(PT)−1JTPT(7)则有
A
T
∼
J
T
(8)
A^{T}\sim J^{T}\tag{8}
AT∼JT(8)结合式
(
6
)
(6)
(6)和式
(
8
)
(8)
(8)我们得到
A
∼
J
∼
J
T
∼
A
T
(9)
A\sim J\sim J^{T}\sim A^{T}\tag{9}
A∼J∼JT∼AT(9)没错,我最后想补充的一点就是
A
A
A相似于
A
T
A^{T}
AT,它们具有相同的
J
o
r
d
a
n
Jordan
Jordan标准形!
甲辰年 十月廿四