前言
学习矩阵对角化(diagonalization)时需要了解一个定理:不同特征值对应的特征向量线性无关。我们知道,一个 n 维矩阵是否可以对角化取决于其是否具有 n 个线性无关的特征向量。所以,在上面的定理的基础上可以得出结论:一个具有 n 个相互不同的特征值的 n 维矩阵必可对角化。
本文的中心便是要证明该定理——不同特征值对应的特征向量线性无关。
证明
给定一个 n 维矩阵 A ,其具有 n 个不等的特征值,分别为 λ 1 , . . . , λ n \lambda_1,...,\lambda_n λ1,...,λn,而 x 1 , . . . , x 2 x_1,...,x_2 x1,...,x2 为分别对应 n 个不等特征值的特征向量。我们需要证明这些特征向量线性无关。
先假设这些特征向量线性相关,则存在 n 个不全为零的常数(
c
i
c_i
ci)使得如下式子成立:
c
1
x
1
+
c
2
x
2
+
.
.
.
+
c
n
x
n
=
0
(1)
c_1x_1 + c_2x_2 +...+c_nx_n = 0 \tag{1}
c1x1+c2x2+...+cnxn=0(1)
用矩阵 A 左乘式
(
1
)
(1)
(1) ,根据
A
x
i
=
λ
i
x
i
Ax_i = \lambda_i x_i
Axi=λixi 得:
c
1
λ
1
x
1
+
c
2
λ
2
x
2
+
.
.
.
+
c
n
λ
n
x
n
=
0
(2)
c_1\lambda_1x_1 + c_2\lambda_2x_2 +...+c_n\lambda_nx_n = 0 \tag{2}
c1λ1x1+c2λ2x2+...+cnλnxn=0(2)
再用式
(
2
)
(2)
(2) 减去
λ
n
∗
(
1
)
\lambda_n * (1)
λn∗(1) ,得:
c
1
(
λ
1
−
λ
n
)
x
1
+
c
2
(
λ
2
−
λ
n
)
x
2
+
.
.
.
+
c
n
−
1
(
λ
n
−
1
−
λ
n
)
x
n
−
1
=
0
(3)
c_1(\lambda_1-\lambda_n)x_1 + c_2(\lambda_2-\lambda_n)x_2 + ... + c_{n-1}(\lambda_{n-1}-\lambda_n)x_{n-1} = 0 \tag{3}
c1(λ1−λn)x1+c2(λ2−λn)x2+...+cn−1(λn−1−λn)xn−1=0(3)
接下来,可将
x
i
x_i
xi 前面的系数
c
i
(
λ
i
−
λ
n
)
c_i(\lambda_i-\lambda_n)
ci(λi−λn) 用常数
d
i
d_i
di 代替,则式
(
3
)
(3)
(3) 可写成:
d
1
x
1
+
d
2
x
2
+
.
.
.
+
d
n
−
1
x
n
−
1
=
0
(4)
d_1x_1 + d_2x_2 +...+d_{n-1}x_{n-1} = 0 \tag{4}
d1x1+d2x2+...+dn−1xn−1=0(4)
式
(
4
)
(4)
(4) 是不是与式
(
1
)
(1)
(1) 形式一样?只是少了一个
x
n
x_n
xn。那么对式
(
4
)
(4)
(4) 也进行类似式
(
1
)
(1)
(1) 的处理,可得:
d
1
(
λ
1
−
λ
n
−
1
)
x
1
+
d
2
(
λ
2
−
λ
n
−
1
)
x
2
+
.
.
.
+
d
n
−
2
(
λ
n
−
2
−
λ
n
−
1
)
x
n
−
2
=
0
(5)
d_1(\lambda_1-\lambda_{n-1})x_1 + d_2(\lambda_2-\lambda_{n-1})x_2 + ... + d_{n-2}(\lambda_{n-2}-\lambda_{n-1})x_{n-2} = 0 \tag{5}
d1(λ1−λn−1)x1+d2(λ2−λn−1)x2+...+dn−2(λn−2−λn−1)xn−2=0(5)
若是按照前面的步骤(式
(
1
)
(1)
(1) 至式
(
3
)
(3)
(3))重复进行
n
−
2
n - 2
n−2 次(每次都用一个不同的单个字符代替
x
i
x_i
xi 前面的系数)后,可得:
m
1
(
λ
1
−
λ
3
)
x
1
+
m
2
(
λ
2
−
λ
3
)
x
2
=
0
(6)
m_1(\lambda_1-\lambda_3)x_1 + m_2(\lambda_2-\lambda_3)x_2 = 0 \tag{6}
m1(λ1−λ3)x1+m2(λ2−λ3)x2=0(6)
用 n i n_i ni 代替式 ( 6 ) (6) (6) 中 x i x_i xi 的系数,即令 n 1 = m 1 ( λ 1 − λ 3 ) n_1 = m_1(\lambda_1-\lambda_3) n1=m1(λ1−λ3), n 2 = m 2 ( λ 2 − λ 3 ) n_2 = m_2(\lambda_2-\lambda_3) n2=m2(λ2−λ3)。
再按照前面的步骤(式
(
1
)
(1)
(1) 至式
(
3
)
(3)
(3))进行一次处理,可得
n
1
(
λ
1
−
λ
2
)
x
1
=
0
n_1(\lambda_1-\lambda_2)x_1=0
n1(λ1−λ2)x1=0(
n
1
n_1
n1 为常数),由于特征向量不为零且各特征值都不相等,所以只能是
n
1
=
0
n_1 = 0
n1=0,又因为
n
1
=
m
1
(
λ
1
−
λ
3
)
n_1 = m_1(\lambda_1-\lambda_3)
n1=m1(λ1−λ3),所以
m
1
=
0
m_1=0
m1=0,带入到式
(
6
)
(6)
(6) 中可得
m
2
=
0
m_2=0
m2=0,如此往后迭代最终可得:
c
i
=
0
for i
=
1
,
2
,
.
.
.
,
n
c_i=0 \quad \text{for i } = 1,2,...,n
ci=0for i =1,2,...,n
则说明前面的假设(n 个特征向量
λ
1
,
.
.
.
,
λ
n
\lambda_1,...,\lambda_n
λ1,...,λn 是线性相关)是错误的,故 矩阵不同特征值对应的特征向量线性无关 得证。
参考源
- 《Linear Algebra and Its Applications》Gilbert Strang 著