本征系统理论
我们将展示特征值和特征向量如何与显示矩阵结构的重要标准形相关。
1 基本定义
1.1 特征值与特征向量
一个向量
x
∈
C
n
x∈\mathbb{C}^n
x∈Cn称为
A
∈
C
n
×
n
A∈\mathbb{C}^{n×n}
A∈Cn×n的一个特征向量,如果
x
x
x是非零的,且
A
x
Ax
Ax 是
x
x
x的倍数,即存在
λ
∈
C
\lambda∈\mathbb{C}
λ∈C,使得
A
x
=
λ
x
,
x
≠
0
A x=\lambda x, \quad x \neq 0
Ax=λx,x=0
复标量λ称为与特征向量x相关联的
A
A
A的特征值。
(
λ
,
X
)
(\lambda,X)
(λ,X)称为
A
A
A的特征对。给定特征向量所相关联的特征值是唯一的。然而,每个特征值具有许多与其相关联的特征向量,因为如果
x
x
x是对应于特征值λ的特征向量,并且α是非零标量,则
α
x
αx
αx也是具有相关联的特征值λ的特征向量。
我们可以将(1)改写为 (λI- A)x=0,x≠0的形式,表明 λI-A是奇异矩阵,因此任何特征值λ必须满足方程:
det
(
λ
I
−
A
)
=
0
\operatorname{det}(\lambda I-A)=0
det(λI−A)=0
通过行列式的余因子展开,很容易看出p(λ) = det(λI − A) 是λ的n次多项式。我们称 p(λ)为A的特征多项式。根据代数基本定理,n次多项式恰有n个实零点或复零点,计入重数。因此,一个n×n矩阵正好有n个特征值,尽管它们不一定是不同的。A的所有特征值的集合称为A的谱,记为:
KaTeX parse error: Can't use function '$' in math mode at position 60: …bda_{n}\right\}$̲
我们有时用 λ i ( A ) \lambda_i(A) λi(A)表示 A A A在某种(通常是任意)排序中的第 i i i个特征值。λ的代数重数是其作为特征多项式 p ( λ ) = det ( λ I − A ) p(\lambda)=\operatorname{det}(\lambda I-A) p(λ)=det(λI−A)的零点的重数。
1.2 不变子空间
C
n
C_n
Cn 的子空间
X
\mathcal{X}
X是A的不变子空间,如果
A
X
⊆
X
A\mathcal{X}⊆\mathcal{X}
AX⊆X,即
x
∈
X
x∈\mathcal{X}
x∈X蕴含
A
x
∈
X
Ax∈\mathcal{X}
Ax∈X。
**定理1:**设列向量
X
∈
C
n
×
p
,
p
≤
n
X \in \mathbb{C}^{n \times p}, p \leq n
X∈Cn×p,p≤n,形成Cn 子空间χ的基。则
X
\mathcal{X}
X是
A
A
A的不变子空间当且仅当对于一些
B
∈
C
p
×
p
B∈\mathbb{C}^{p×p}
B∈Cp×p有
A
X
=
X
B
AX=XB
AX=XB。当后者方程成立,这些
B
B
B属于
A
A
A。
**证明:**设
X
=
[
x
1
…
x
p
]
X=\left[\begin{array}{lll}x_{1} & \ldots & x_{p}\end{array}\right]
X=[x1…xp]和
Y
=
A
X
=
[
y
1
…
y
p
]
Y=A X=\left[\begin{array}{lll}y_{1} & \ldots & y_{p}\end{array}\right]
Y=AX=[y1…yp]按列进行分区。如果
X
\mathcal{X}
X是
A
A
A的不变子空间,则
y
i
i
∈
X
yi_i \in \mathcal{X}
yii∈X,并且由于
X
X
X是
X
\mathcal{X}
X的基,因此
y
i
y_i
yi可以表示为
X
X
X的列的线性组合,即,对于某个向量
y
i
=
X
b
i
y_i = Xb_i
yi=Xbi如果我们让
B
=
[
b
1
…
b
p
]
B=\left[\begin{array}{lll}b_{1} & \ldots & b_{p}\end{array}\right]
B=[b1…bp],则
A
X
=
X
B
AX = XB
AX=XB。
相反,如果对于某个
B
∈
C
p
×
p
,
A
X
=
X
B
B∈C^{p×p},AX = XB
B∈Cp×p,AX=XB.则将
A
X
AX
AX的第
j
j
j列与
X
B
XB
XB的第
j
j
j列给出
A
x
j
=
∑
i
=
1
p
x
i
b
i
j
∈
span
{
x
1
,
…
,
x
p
}
=
X
A x_{j}=\sum_{i=1}^{p} x_{i} b_{i j} \in \operatorname{span}\left\{x_{1}, \ldots, x_{p}\right\}=\mathcal{X}
Axj=∑i=1pxibij∈span{x1,…,xp}=X.由于
A
x
j
∈
X
,
j
=
1
,
…
,
p
A x_{j} \in \mathcal{X},j=1, \ldots, p
Axj∈X,j=1,…,p 和
x
1
,
…
,
x
p
span
X
x_{1}, \ldots, x_{p} \operatorname{span} \mathcal{X}
x1,…,xpspanX,则对所有
x
∈
X
x∈\mathcal{X}
x∈X都有
A
x
∈
X
Ax \in \mathcal{X}
Ax∈X
设
(
l
a
m
b
d
a
,
u
)
(lambda, u)
(lambda,u)是
B
B
B的一个本征对。如果对某个
B
∈
C
p
×
p
B\in\mathbb{C}^{p×p}
B∈Cp×p 有
A
X
=
X
B
AX = XB
AX=XB,则
A
X
u
=
X
B
u
=
λ
X
u
AXu = XBu = λXu
AXu=XBu=λXu
和
X
u
≠
0
Xu \neq 0
Xu=0。因为
X
X
X的列是独立的,所以
(
λ
,
X
u
)
(λ, Xu)
(λ,Xu) 是A的一个本征对。因为这对B的每个本征对都成立,所以我们有
Λ
(
B
)
⊂
Λ
(
A
)
\Lambda(B) \subset \Lambda(A)
Λ(B)⊂Λ(A)。
1.3相似,酉相似
设
A
,
B
∈
C
n
×
∞
A, B \in C^{n \times \infty}
A,B∈Cn×∞, 如果存在非奇异矩阵
P
\mathrm{P}
P 使得
B
=
P
−
1
A
P
(
2
)
B=P^{-1} A P\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad(2)
B=P−1AP(2)
则矩阵
A
\mathrm{A}
A 和
B
\mathrm{B}
B 相似。
(
2
)
(2)
(2) 称为相似变换,
P
\mathrm{P}
P 是变换矩阵。
**定理 2 :**设
A
A
A 和
B
B
B 相似, 即
B
=
P
−
l
A
P
B=P^{-l} A P
B=P−lAP 。则
A
A
A 和
B
B
B 具有相同的特征值, 并且
X
X
X 是
A
A
A 的具有相关特征值
λ
\lambda
λ 的特征向量,当且仅当
P
−
1
X
P^{-1}X
P−1X 是
B
B
B 的具有相关特佂值
λ
\lambda
λ 的特址向量:
证明:
A
x
=
λ
x
⇔
(
P
−
1
A
P
)
(
P
−
1
x
)
=
λ
(
P
−
1
x
)
A x=\lambda x \Leftrightarrow\left(P^{-1} A P\right)\left(P^{-1} x\right)=\lambda\left(P^{-1} x\right)
Ax=λx⇔(P−1AP)(P−1x)=λ(P−1x) ,所以
(
λ
,
X
)
(\lambda, X)
(λ,X) 是
A
A
A 的一个特征对当且仅当
λ
(
P
−
1
x
)
\lambda\left(P^{-1} x\right)
λ(P−1x) 是
P
−
1
A
P
=
B
P^{-1} A P=B
P−1AP=B 的一个特征对。
**注意:**我们还可以证明
det
(
λ
I
−
A
)
=
det
(
P
−
1
(
λ
I
−
A
)
P
)
=
det
(
P
−
1
A
P
−
λ
I
)
\operatorname{det}(\lambda I-A)=\operatorname{det}\left(P^{-1}(\lambda I-A) P\right)=\operatorname{det}\left(P^{-1} A P-\lambda I\right)
det(λI−A)=det(P−1(λI−A)P)=det(P−1AP−λI) 。因此,
A
\mathrm{A}
A 和
B
\mathrm{B}
B 具有 相同的特征值, 并且代数重数保持不变。
如果存在酉矩阵
U
U
U 使得
B
=
U
∗
A
U
B=U^{*} A U
B=U∗AU, 则称
A
\mathrm{A}
A 和
B
\mathrm{B}
B 是酉相似的。如果
A
\mathrm{A}
A 和
B
\mathrm{B}
B 是实数, 则称它 们是正交相似的, 如果存在一个实正交矩阵 U, 使得
B
=
U
T
A
U
B=U^{T} A U
B=UTAU.
如果矩阵
A
A
A类似于对角矩阵,则称
A
A
A是可对角化的或简单的。
1.4 如何在解决问题中使用相似性?
相似性方法是一种经常用于解决问题的策略。下面是该方法的概要。
步骤 1: 选择一个类似于 A 的矩阵 B,它的问题更容易解决。
步骤 2: 使用矩阵 B 而不是矩阵 A 解决问题(B 问题)。
步骤 3: 根据矩阵 A 解释 B 问题的解。
例 1: 给定
A
=
[
1
4
3
2
]
A=\left[\begin{array}{ll}1 & 4 \\ 3 & 2\end{array}\right]
A=[1342], 求
A
1010
A^{1010}
A1010
步骤 1( 找到与
A
\mathrm{A}
A 相似的更容易的
B
)
\mathrm{B})
B): 选择
B
=
[
5
0
0
−
2
]
,
P
=
[
1
−
4
1
3
]
B=\left[\begin{array}{cc}5 & 0 \\ 0 & -2\end{array}\right], P=\left[\begin{array}{cc}1 & -4 \\ 1 & 3\end{array}\right]
B=[500−2],P=[11−43], 则
A
=
P
B
P
−
1
A=P B P^{-1}
A=PBP−1.
步骤 2(利用 B 解决问题) : $ \mathrm{B}{1010}=\left[\begin{array}{cc}5{1010} & 0 \ 0 & -2^{1010}\end{array}\right]$
步骤 3 (解释 B-解决方案):
A
1010
=
(
P
B
P
−
1
)
1010
=
P
B
1010
P
−
1
A^{1010}=(P B P-1)^{1010}=P B^{1010} P^{-1}
A1010=(PBP−1)1010=PB1010P−1. 因此:
A
1010
=
1
7
[
3
(
5
1010
)
+
2
1012
4
(
5
1010
)
−
2
1012
3
(
5
1010
)
−
3
(
2
1010
)
4
(
5
1010
)
+
3
(
2
1010
)
]
A^{1010}=\frac{1}{7}\left[\begin{array}{cc} 3\left(5^{1010}\right)+2^{1012} & 4\left(5^{1010}\right)-2^{1012} \\ 3\left(5^{1010}\right)-3\left(2^{1010}\right) & 4\left(5^{1010}\right)+3\left(2^{1010}\right) \end{array}\right]
A1010=71[3(51010)+210123(51010)−3(21010)4(51010)−210124(51010)+3(21010)]
例2: 在经济学的某些问题中,系统的状态用矩阵来描述
S
n
=
I
+
A
+
A
2
+
⋯
+
A
n
S_{n}=I+A+A^{2}+\cdots+A^{n}
Sn=I+A+A2+⋯+An at time
n
n
n where
A
A
A 是一个给定的矩阵。 使用相似性方法调查系统在“长期”中的行为, 即, 当
n
n
n 无穷大时.
假设存在一个非奇异矩阵
P
P
P 和两个标量
λ
\lambda
λ 和
μ
\mu
μ 使得
A
=
P
[
λ
0
0
μ
]
P
−
1
A=P\left[\begin{array}{ll}\lambda & 0 \\ 0 & \mu\end{array}\right] P^{-1}
A=P[λ00μ]P−1.
步骤一: 选择
B
=
[
λ
0
0
μ
]
B=\left[\begin{array}{cc}\lambda & 0 \\ 0 & \mu\end{array}\right]
B=[λ00μ].
步骤二: 令
T
n
=
I
+
B
+
B
2
+
⋯
+
B
n
T_{n}=I+B+B^{2}+\cdots+B^{n}
Tn=I+B+B2+⋯+Bn, 即:
T
n
=
[
1
+
λ
+
λ
2
+
⋯
+
λ
n
1
+
μ
+
μ
2
+
⋯
+
μ
n
]
=
[
1
−
λ
n
+
1
1
−
λ
1
−
μ
n
+
1
1
−
μ
]
T_{n}=\left[\begin{array}{ll}1+\lambda+\lambda^{2}+\cdots+\lambda^{n} & \\ & 1+\mu+\mu^{2}+\cdots+\mu^{n}\end{array}\right]=\left[\begin{array}{cc}\frac{1-\lambda^{n+1}}{1-\lambda} & \\ & \frac{1-\mu^{n+1}}{1-\mu}\end{array}\right]
Tn=[1+λ+λ2+⋯+λn1+μ+μ2+⋯+μn]=[1−λ1−λn+11−μ1−μn+1]
对于所有的
n
≥
0
n \geq 0
n≥0 以及
λ
,
μ
≠
1
\lambda, \mu \neq 1
λ,μ=1. 如果
∣
λ
∣
,
∣
μ
∣
<
1
,
T
n
|\lambda|,|\mu|<1, T_{n}
∣λ∣,∣μ∣<1,Tn 接近
[
1
1
−
λ
0
0
1
1
−
μ
]
\left[\begin{array}{cc}\frac{1}{1-\lambda} & 0 \\ 0 & \frac{1}{1-\mu}\end{array}\right]
[1−λ1001−μ1] 当
n
n
n 无穷大时.
步骤三: 由于
S
n
=
P
T
n
P
−
1
S_{n}=P T_{n} P^{-1}
Sn=PTnP−1, 因此
S
n
S_{n}
Sn 近似于
P
T
P
−
1
P T P^{-1}
PTP−1 当
n
n
n无穷大时 所以,即使不知道
P
P
P 我们可以预测,从长远来看,系统将达到稳定状态。如果我们想要一个定量的陈述, 我们计算
P
P
P 然后可以说
n
n
n 有多大,才能使
S
n
S_{n}
Sn 近似
P
T
P
−
1
P T P^{-1}
PTP−1 (稳态矩阵) 在
′
x
′
'x'
′x′ 个小数位内的准确性.
2 标准型
我们现在考虑以下问题:
方阵在相似变换下的最简单形式是什么?
2.1 Schur分解:三角化
我们从考虑酉相似性
A
=
U
B
U
∗
A=U B U^{*}
A=UBU∗开始。酉相似性在计算上比相似性更简单,因为共轭转置比逆更容易计算。 舒尔定理断言,我们可以通过酉相似变换将任何
n
×
n
n \times n
n×n 矩阵简化为三角形矩阵。
定理3 (Schur定理): 设
A
∈
C
n
×
n
A \in \mathbb{C}^{n \times n}
A∈Cn×n. 然后存在一个酉矩阵
U
U
U and 和一个上三角矩阵
T
T
T,这样
T
=
U
−
1
A
U
=
U
∗
A
U
T=U^{-1} A U=U^{*} A U
T=U−1AU=U∗AU
**证明:**证明是通过
n
n
n上的归纳法。 对于
n
=
1
n=1
n=1,结果显然成立。 让我们证明它对
n
=
k
n=k
n=k成立 , 假设它能使
n
=
k
−
1
n=k-1
n=k−1时成立. 令
A
∈
C
k
×
k
.
A \in \mathbb{C}^{k \times k} .
A∈Ck×k. 令
λ
\lambda
λ 是
A
A
A的特征值
x
x
x 是归一化的相关特征向量,使得
x
∗
x
=
1.
x^{*} x=1 .
x∗x=1. 设
U
1
U_{1}
U1 设是以
x
x
x 为第一列的任何酉矩阵(有许多这样的矩阵:只取
C
k
\mathbb{C}^{k}
Ck的第一个成员为
x
x
x 的任何标准正交基, 并设
U
1
U_{1}
U1 为列为基的成员的矩阵). 记为
U
1
=
[
x
W
]
U_{1}=\left[\begin{array}{ll}x & W\end{array}\right]
U1=[xW]. 由于
W
W
W的列与
x
x
x正交,
W
∗
x
=
0
W^{*} x=0
W∗x=0. 令
A
1
=
U
∗
A
U
A_{1}=U^{*} A U
A1=U∗AU.则
A
1
=
[
x
∗
W
∗
]
A
[
x
W
]
=
[
x
∗
A
x
x
∗
A
W
W
∗
A
x
W
∗
A
W
]
A_{1}=\left[\begin{array}{c}x^{*} \\ W^{*}\end{array}\right] A\left[\begin{array}{ll}x & W\end{array}\right]=\left[\begin{array}{cc}x^{*} A x & x^{*} A W \\ W^{*} A x & W^{*} A W\end{array}\right]
A1=[x∗W∗]A[xW]=[x∗AxW∗Axx∗AWW∗AW]
由于
A
x
=
λ
x
A x=\lambda x
Ax=λx, 因此
x
∗
A
x
=
λ
x^{*} A x=\lambda
x∗Ax=λ 且
W
∗
A
x
=
λ
W
∗
x
=
0.
W^{*} A x=\lambda W^{*} x=0 .
W∗Ax=λW∗x=0. 令
A
^
=
W
∗
A
W
.
\widehat{A}=W^{*} A W .
A
=W∗AW. 则
A
1
=
[
λ
x
∗
A
W
0
A
^
]
A_{1}=\left[\begin{array}{cc} \lambda & x^{*} A W \\ 0 & \widehat{A} \end{array}\right]
A1=[λ0x∗AWA
]
但是
A
^
∈
C
(
k
−
1
)
×
(
k
−
1
)
\widehat{A} \in \mathbb{C}^{(k-1) \times(k-1)}
A
∈C(k−1)×(k−1), 因此,根据归纳假设,存在一个酉矩阵
U
^
2
\widehat{U}_{2}
U
2 和一个上三角矩阵
T
^
\widehat{T}
T
使得
T
^
=
U
^
2
∗
A
^
U
^
2
\widehat{T}=\widehat{U}_{2}^{*} \widehat{A} \widehat{U}_{2}
T
=U
2∗A
U
2. 定义
U
2
=
[
1
0
1
×
(
k
−
1
)
0
(
k
−
1
)
×
1
U
^
2
]
=
[
1
U
^
2
]
U_{2}=\left[\begin{array}{cc} 1 & 0_{1 \times(k-1)} \\ 0_{(k-1) \times 1} & \widehat{U}_{2} \end{array}\right]=\left[\begin{array}{cc} 1 & \\ & \widehat{U}_{2} \end{array}\right]
U2=[10(k−1)×101×(k−1)U
2]=[1U
2]
则
U
2
U_{2}
U2 是一元的
U
2
∗
A
1
U
2
=
[
λ
x
∗
A
W
U
^
2
0
U
^
2
∗
A
^
U
^
2
]
=
[
λ
x
∗
A
W
U
^
2
0
T
^
]
U_{2}^{*} A_{1} U_{2}=\left[\begin{array}{cc} \lambda & x^{*} A W \widehat{U}_{2} \\ 0 & \widehat{U}_{2}^{*} \widehat{A} \widehat{U}_{2} \end{array}\right]=\left[\begin{array}{cc} \lambda & x^{*} A W \widehat{U}_{2} \\ 0 & \widehat{T} \end{array}\right]
U2∗A1U2=[λ0x∗AWU
2U
2∗A
U
2]=[λ0x∗AWU
2T
]
这是上三角形。让我们称这个矩阵为
T
T
T, 则让
U
=
U
1
U
2
U=U_{1} U_{2}
U=U1U2.则
T
=
U
2
∗
A
1
U
2
=
T=U_{2}^{*} A_{1} U_{2}=
T=U2∗A1U2=
U
2
∗
U
1
∗
A
U
1
U
2
=
U
∗
A
U
U_{2}^{*} U_{1}^{*} A U_{1} U_{2}=U^{*} A U
U2∗U1∗AU1U2=U∗AU
这个酉相似变换
T
=
U
−
1
A
U
T=U^{-1} A U
T=U−1AU 也可以写为
A
=
U
T
U
∗
A=U T U^{*}
A=UTU∗
写成这样,我们称其为
A
A
A的 Schur 分解. 注意,由于
det
(
U
)
det
(
U
∗
)
=
\operatorname{det}(U) \operatorname{det}\left(U^{*}\right)=
det(U)det(U∗)=
det
(
U
U
∗
)
=
1
\operatorname{det}\left(U U^{*}\right)=1
det(UU∗)=1
det
(
λ
I
−
A
)
=
det
(
λ
I
−
T
)
=
∏
i
=
1
n
(
λ
−
t
i
i
)
\operatorname{det}(\lambda I-A)=\operatorname{det}(\lambda I-T)=\prod_{i=1}^{n}\left(\lambda-t_{i i}\right)
det(λI−A)=det(λI−T)=i=1∏n(λ−tii)
T
T
T 的对角线元素是
A
A
A特征值. TSchur 分解不是唯一的(特征值可以以出现在
T
T
T的任意顺序 ).
U
U
U 的列称为 Schur 向量. 除了
u
1
u_{1}
u1, Schur 向量通常不是
A
A
A的特征向量 。
2.2 可对角化矩阵
任何矩阵 A 是可对角化的吗?
换句话说,我们总能找到一个非奇异的
P
P
P 以至于
P
−
1
A
P
P^{-1} A P
P−1AP 是对角线?
2.2.1 与对角矩阵酉相似的矩阵类
一个矩阵
A
A
A 是 标准的, 如果
A
A
∗
=
A
∗
A
A A^{*}=A^{*} A
AA∗=A∗A。正规矩阵类包含厄米矩阵和酉矩阵的重要子类。 对于正规矩阵,舒尔定理采用了一种特别好的形式:三角矩阵
T
T
T 结果是对角线。Schur 定理的这种特殊形式称为谱定理。
定理 4(谱定理): 令
A
∈
C
n
×
n
A \in \mathbb{C}^{n \times n}
A∈Cn×n. 则
A
A
A 是规范的当且仅当存在酉矩阵
U
U
U 和对角矩阵 Λ\λ
Λ
\Lambda
Λ 从而
A
=
U
Λ
U
∗
A=U \Lambda U^{*}
A=UΛU∗
证明: 令
A
=
U
T
U
∗
A=U T U^{*}
A=UTU∗ 是
A
A
A 的Schur 分解 . 如果
A
A
A 是标准的,那么很容易证明
T
T
T 是标准的 (参见练习 4)。由于正态矩阵和三角矩阵是对角矩阵(参见练习 8)。
T
T
T 是对角矩阵。
相反,如果
A
A
A 承认分解
A
=
U
Λ
U
∗
A=U \Lambda U^{*}
A=UΛU∗和
U
U
U 单一的和
Λ
\Lambda
Λ 对角线那么,因为对角线矩阵交换,
A
A
∗
=
(
U
Λ
U
∗
)
(
U
Λ
∗
U
∗
)
=
U
Λ
Λ
∗
U
∗
=
U
Λ
∗
Λ
U
∗
=
(
U
Λ
∗
U
∗
)
(
U
Λ
U
)
∗
=
A
∗
A
A A^{*}=\left(U \Lambda U^{*}\right)\left(U \Lambda^{*} U^{*}\right)=U \Lambda \Lambda^{*} U^{*}=U \Lambda^{*} \Lambda U^{*}=\left(U \Lambda^{*} U^{*}\right)(U \Lambda U)^{*}=A^{*} A
AA∗=(UΛU∗)(UΛ∗U∗)=UΛΛ∗U∗=UΛ∗ΛU∗=(UΛ∗U∗)(UΛU)∗=A∗A
下一个定理给出了标准矩阵的另一个特征。
定理5
A
∈
C
n
×
n
A \in \mathbb{C}^{n \times n}
A∈Cn×n是标准的当且仅当它有
n
n
n 个正交的特征向量。
证明: 从定理 4 可知,标准矩阵具有特征向量的正交基。相反,假设
u
1
,
…
,
u
n
u_{1}, \ldots, u_{n}
u1,…,un 是一个标准正交基
C
n
\mathbb{C}^{n}
Cn 由特征向量
A
A
A组成
:
A
u
j
=
λ
j
u
j
,
j
=
1
,
…
,
n
: A u_{j}=\lambda_{j} u_{j}, j=1, \ldots, n
:Auj=λjuj,j=1,…,n. 令
U
=
[
u
1
⋯
u
n
]
U=\left[\begin{array}{lll}u_{1} & \cdots & u_{n}\end{array}\right]
U=[u1⋯un] 和
Λ
=
diag
(
λ
1
,
…
,
λ
n
)
\Lambda=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{n}\right)
Λ=diag(λ1,…,λn). 则
A
U
=
U
Λ
A U=U \Lambda
AU=UΛ 或等价于
A
=
U
Λ
U
∗
A=U \Lambda U^{*}
A=UΛU∗ 和 一个
A
A
A i根据定理4是标准的。
2.2.2 类似于对角矩阵的矩阵
我们现在考虑相似变换
P
−
1
A
P
P^{-1} A P
P−1AP 这里
P
P
P不一定是单一的。下一个定理确定了一大类可对角化矩阵。
定理 6: 令
A
A
A 是一个
n
×
n
n \times n
n×n 矩阵. 则
A
A
A可对角化当且仅当 if
A
A
A 有
n
n
n 线性无关的特征向量。
**证明:**认为
A
A
A 是可对角化的, 即存在
P
=
[
p
1
,
…
,
p
n
]
P=\left[p_{1}, \ldots, p_{n}\right]
P=[p1,…,pn] 非奇异且
Λ
=
diag
(
λ
1
,
…
,
λ
n
)
\Lambda=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{n}\right)
Λ=diag(λ1,…,λn) 使得
Λ
=
P
−
1
A
P
\Lambda=P^{-1} A P
Λ=P−1AP或等效地,
A
P
=
P
Λ
⟺
[
A
p
1
,
…
,
A
p
n
]
=
[
λ
1
p
1
,
…
,
λ
n
p
n
]
⟺
A
p
i
=
λ
i
p
i
,
i
=
1
,
…
,
n
A P=P \Lambda \Longleftrightarrow\left[A p_{1}, \ldots, A p_{n}\right]=\left[\lambda_{1} p_{1}, \ldots, \lambda_{n} p_{n}\right] \Longleftrightarrow A p_{i}=\lambda_{i} p_{i}, i=1, \ldots, n
AP=PΛ⟺[Ap1,…,Apn]=[λ1p1,…,λnpn]⟺Api=λipi,i=1,…,n
因此,
P
P
P 的列是特征向量
A
A
A 并且线性无关,因为
P
P
P 是非奇异的。相反,如果
A
A
A 有
n
n
n 列线性无关的特征向量
p
1
,
…
,
p
n
p_{1}, \ldots, p_{n}
p1,…,pn 对应于特征值
λ
1
,
…
,
λ
n
\lambda_{1}, \ldots, \lambda_{n}
λ1,…,λn, 然后使用矩阵上方的符号
P
P
P 是非奇异的,我们有
A
P
=
P
Λ
A P=P \Lambda
AP=PΛ 这表明
A
A
A 相似于
Λ
\Lambda
Λ.
我们现在证明当
A
A
A的特征值
λ
1
,
…
,
λ
n
\lambda_{1}, \ldots, \lambda_{n}
λ1,…,λn 与相应的特征向量不同
x
1
,
…
,
x
n
x_{1}, \ldots, x_{n}
x1,…,xn 是线性无关的。假设特征向量
x
i
,
i
=
1
,
…
,
n
x_{i}, i=1, \ldots, n
xi,i=1,…,n 是线性相关的,所以
∑
i
=
1
n
α
i
x
i
=
0
\sum_{i=1}^{n} \alpha_{i} x_{i}=0
∑i=1nαixi=0 不是所有的常数
α
1
,
…
,
α
n
\alpha_{1}, \ldots, \alpha_{n}
α1,…,αn
等于零。我们可以假设
α
n
≠
0
\alpha_{n} \neq 0
αn=0 如有必要,通过对特征值重新编号。乘法
∑
i
=
1
n
α
i
x
i
=
0
\sum_{i=1}^{n} \alpha_{i} x_{i}=0
∑i=1nαixi=0 通过
(
A
−
λ
1
I
)
\left(A-\lambda_{1} I\right)
(A−λ1I) 给出:
0
=
(
A
−
λ
1
I
)
∑
i
=
1
n
α
i
x
i
=
∑
i
=
2
n
α
i
(
λ
i
−
λ
1
)
x
i
.
0=\left(A-\lambda_{1} I\right) \sum_{i=1}^{n} \alpha_{i} x_{i}=\sum_{i=2}^{n} \alpha_{i}\left(\lambda_{i}-\lambda_{1}\right) x_{i} .
0=(A−λ1I)i=1∑nαixi=i=2∑nαi(λi−λ1)xi.
将上述表达式乘以
A
−
λ
2
I
A-\lambda_{2} I
A−λ2I 得:
0
=
(
A
−
λ
2
I
)
∑
i
=
2
n
α
i
(
λ
i
−
λ
1
)
x
i
=
∑
i
=
3
n
α
i
(
λ
i
−
λ
1
)
(
λ
i
−
λ
2
)
x
i
0=\left(A-\lambda_{2} I\right) \sum_{i=2}^{n} \alpha_{i}\left(\lambda_{i}-\lambda_{1}\right) x_{i}=\sum_{i=3}^{n} \alpha_{i}\left(\lambda_{i}-\lambda_{1}\right)\left(\lambda_{i}-\lambda_{2}\right) x_{i}
0=(A−λ2I)i=2∑nαi(λi−λ1)xi=i=3∑nαi(λi−λ1)(λi−λ2)xi
继续类似的乘法
A
−
λ
3
I
A-\lambda_{3} I
A−λ3I, 则
A
−
λ
4
I
A-\lambda_{4} I
A−λ4I 依此类推,我们得到
0
=
α
n
(
λ
n
−
λ
n
−
1
)
(
λ
n
−
λ
n
−
2
)
…
(
λ
n
−
λ
1
)
x
n
0=\alpha_{n}\left(\lambda_{n}-\lambda_{n-1}\right)\left(\lambda_{n}-\lambda_{n-2}\right) \ldots\left(\lambda_{n}-\lambda_{1}\right) x_{n}
0=αn(λn−λn−1)(λn−λn−2)…(λn−λ1)xn
但这是一个矛盾,当
λ
i
\lambda_{i}
λi 是不同的,因为
α
n
≠
0
\alpha_{n} \neq 0
αn=0 and
x
n
≠
0
x_{n} \neq 0
xn=0。因此充分条件为
A
∈
C
n
×
n
A \in \mathbb{C}^{n \times n}
A∈Cn×n 具有
n
n
n个 线性无关的特征向量有
n
n
n个 不同的特征值。我们从定理 6 得出结论:
A
A
A 是可对角化的。
定理 7: 具有不同特征值的矩阵是可对角化的。
定理 6 和 7 表明与对角矩阵不相似的矩阵必然有多个特征值并且小于
n
n
n个线性无关的特征向量。 注意矩阵
[
0
1
0
0
]
\left[\begin{array}{ll}0 & 1 \\ 0 & 0\end{array}\right]
[0010] 有 0 作为重数 2 的特征值,并且只有一个特征向量 (任意倍数
[
1
0
]
\left[\begin{array}{l}1 \\ 0\end{array}\right]
[10]) 与 0 相关联。因此
[
0
1
0
0
]
\left[\begin{array}{ll}0 & 1 \\ 0 & 0\end{array}\right]
[0010] 不可对角化。
2.3 Jordan 标准形
如果不是所有矩阵都是可对角化的,那么矩阵在相似变换下通常可以采用的最简单形式是什么?
**定理 8(Jordan 规范形式):**任意矩阵
A
∈
C
n
×
n
A \in \mathbb{C}^{n \times n}
A∈Cn×n 可以用Jordan规范形式表示
X
−
1
A
X
=
J
=
[
J
1
(
λ
1
)
J
2
(
λ
2
)
⋱
J
p
(
λ
p
)
]
,
(
3
a
)
J
k
=
J
k
(
λ
k
)
=
[
λ
k
1
λ
k
⋱
⋱
1
λ
k
]
∈
C
m
k
×
m
k
,
(
3
b
)
\begin{array}{c} X^{-1} A X=J=\left[\begin{array}{lllll} J_{1}\left(\lambda_{1}\right) & & & & \\ & J_{2}\left(\lambda_{2}\right) & & \\ & & & \ddots & \\ & & & & J_{p}\left(\lambda_{p}\right) \end{array}\right],\qquad\qquad (3a) \\ J_{k}=J_{k}\left(\lambda_{k}\right)=\left[\begin{array}{ccccc} \lambda_{k} & 1 & & & \\ & \lambda_{k} & \ddots & & \\ & & \ddots & 1 \\ & & & \lambda_{k} \end{array}\right] \in \mathbb{C}^{m_{k} \times m_{k}},\qquad\qquad(3b) \end{array}
X−1AX=J=⎣⎢⎢⎡J1(λ1)J2(λ2)⋱Jp(λp)⎦⎥⎥⎤,(3a)Jk=Jk(λk)=⎣⎢⎢⎡λk1λk⋱⋱1λk⎦⎥⎥⎤∈Cmk×mk,(3b)
这里
X
X
X 是非奇异的并且
m
1
+
m
2
+
⋯
+
m
p
=
n
m_{1}+m_{2}+\cdots+m_{p}=n
m1+m2+⋯+mp=n.
**证明:**有关该定理的证明(这并不容易)参见
[
1
]
[1]
[1], [2] or [3].
这种
m
k
×
m
k
m_{k} \times m_{k}
mk×mk 矩阵
J
k
J_{k}
Jk 被称为约旦块。 约旦矩阵
J
J
J 根据块的顺序是唯一的 J k J_{k}
J
k
J_{k}
Jk, 但变换矩阵
X
X
X 不是唯一的。约旦块 KaTeX parse error: Can't use function '$' in math mode at position 6: J_{k}$̲ 只有一个线性无关的特征向量。…
\left(J_{k}\left(\lambda_{k}\right)-\lambda_{k} I\right) x=\left[\begin{array}{lll}
0 & 1 & 0 \
0 & 0 & 1 \
0 & 0 & 0
\end{array}\right]\left[\begin{array}{l}
x_{1} \
x_{2} \
x_{3}
\end{array}\right]=0 \Rightarrow x_{2}=x_{3}=0
$$
从而
x
x
x 是
e
1
e_{1}
e1的一个倍数。
约旦矩阵
J
J
J 显示以下几个重要的属性。
(i)约旦块的数量
p
p
p 是线性无关
A
A
A的特征向量的数量 (或等价于
J
J
J )。因此矩阵
A
A
A 可对角化当且仅当
p
=
n
p=n
p=n.
(ii) 给定特征值的代数重数(在第 1.1 节中定义)
λ
\lambda
λ 是约旦块的尺寸之和,其中
λ
\lambda
λ 出现。
(iii) 几何多重性
λ
\lambda
λ 是乔丹块的数量
λ
\lambda
λ。因此几何多重性
λ
\lambda
λ 是与相关联的线性无关特征向量的数量
λ
\lambda
λ 或者,等效地,
dim
(
null
(
A
−
λ
I
)
)
\operatorname{dim}(\operatorname{null}(A-\lambda I))
dim(null(A−λI)).
(iv) 一个特征值
λ
\lambda
λ 如果它出现在大小大于 1 的 Jordan 块中,或者等价于,如果它的代数重数超过其几何重数,则它是有缺陷的。如果一个矩阵有一个有缺陷的特征值,或者等价于,如果它没有一组完整的线性无关的特征向量,那么它就是有缺陷的。
例 3: 查找
A
A
A矩阵的 Jordan 矩阵
J
J
J 具有作为特征多项式
p
(
λ
)
=
p(\lambda)=
p(λ)=
(
λ
−
1
)
3
(
λ
−
2
)
4
(\lambda-1)^{3}(\lambda-2)^{4}
(λ−1)3(λ−2)4 如果几何多重性也已知:
dim
(
null
(
A
−
I
)
)
=
2
\operatorname{dim}(\operatorname{null}(A-I))=2
dim(null(A−I))=2 和
dim
(
null
(
A
−
2
I
)
)
=
3
\operatorname{dim}(\operatorname{null}(A-2 I))=3
dim(null(A−2I))=3
dim
(
null
(
A
−
I
)
)
=
2
\operatorname{dim}(\operatorname{null}(A-I))=2
dim(null(A−I))=2 意味着有两个 Jordan 块与
λ
1
=
1
\lambda_{1}=1
λ1=1 并且因为
λ
1
\lambda_{1}
λ1具有代数多重性 3 , 块之一是 2 阶,另一个是 1 阶。以类似的方式推理我们获得的第二个特征值
J
=
diag
(
[
1
1
0
1
]
,
[
1
]
,
[
2
1
0
2
]
,
[
2
]
,
[
2
]
)
J=\operatorname{diag}\left(\left[\begin{array}{ll} 1 & 1 \\ 0 & 1 \end{array}\right],[1],\left[\begin{array}{ll} 2 & 1 \\ 0 & 2 \end{array}\right],[2],[2]\right)
J=diag([1011],[1],[2012],[2],[2])