关于 A B = B A AB=BA AB=BA的一切
前两天在做矩阵论的习题,被出现的几道关于 A B = B A AB=BA AB=BA的题目搞得糊里糊涂。但是经过我不停地网罗资料和不停地思考(真的吃饭睡觉都在琢磨),我终于通透了。下面将我几天的成果整理到一起,也供后人参考。
一般来说矩阵乘法不满足交换律,当特殊情况下满足 A B = B A AB=BA AB=BA我们称 A A A和 B B B是可交换矩阵。自然地, A A A和 B B B必须是同阶方阵(设为 n n n阶)才会有后话。我将涉及到 A B = B A AB=BA AB=BA的问题大致分为两类:
1
1
1.某两个矩阵
A
A
A和
B
B
B可交换,即满足
A
B
=
B
A
AB=BA
AB=BA,
A
A
A和
B
B
B之间有什么样的联系?
2
2
2.若
A
A
A与任意同阶方阵
B
B
B可交换,则
A
A
A本身满足什么条件?
我们先就第一类问题展开讨论。
结论 1 1 1 若 A B = B A AB=BA AB=BA,则对于 A A A的任一特征值 λ \lambda λ,存在向量 x 0 x_0 x0即是属于 A A A的特征值 λ \lambda λ的特征向量,也是属于 B B B的特征值 μ \mu μ的特征向量,即 A A A和 B B B存在公共的特征向量
分析 设 λ \lambda λ为矩阵 A A A的任一特征值,对应的特征子空间为 E A ( λ ) = { x ∈ C n ∣ A x = λ x } E_A(\lambda) =\{ x \in \mathbb{C^{n}} \mid Ax = \lambda x \} EA(λ)={x∈Cn∣Ax=λx}。
对于
∀
x
∈
E
A
(
λ
)
\forall \ x \in E_A(\lambda)
∀ x∈EA(λ),有
A
(
B
x
)
=
(
A
B
)
x
=
(
B
A
)
x
=
B
(
A
x
)
=
B
(
λ
x
)
=
λ
(
B
x
)
,
A(Bx) = (AB)x = (BA)x = B(Ax) = B(\lambda x) = \lambda (Bx),
A(Bx)=(AB)x=(BA)x=B(Ax)=B(λx)=λ(Bx),这意味着
B
x
∈
E
A
(
λ
)
Bx \in E_A(\lambda)
Bx∈EA(λ)。因此,我们可以将
T
(
x
)
=
B
x
T(x) = Bx
T(x)=Bx 视为定义在线性空间
E
A
(
λ
)
E_A(\lambda)
EA(λ)上的线性变换。
根据代数基本定理,任何定义在复数域上的有限维线性空间中的线性变换必定有特征值和对应的特征向量。因此,线性变换
T
T
T的特征向量
x
0
x_0
x0一定存在,则有
T
(
x
0
)
=
B
x
0
=
μ
x
0
T(x_0) = Bx_0=\mu x_0
T(x0)=Bx0=μx0故
x
0
x_0
x0必然也是
B
B
B的属于特征值
μ
\mu
μ 的特征向量(注意,
B
B
B的特征向量不一定是
T
T
T的,因为
T
T
T仅在子空间
E
A
(
λ
)
E_A(\lambda)
EA(λ)上定义,而非整个
C
n
\mathbb{C^{n}}
Cn 上)。由于
x
0
∈
E
A
(
λ
)
x_0 \in E_A(\lambda)
x0∈EA(λ),
x
0
x_0
x0自然也是
A
A
A的特征向量。因此,
A
A
A和
B
B
B存在公共的特征向量
x
0
x_0
x0。
以上分析过程并不是我独立思考出来的,而是主要基于《百度知道》十几年前的一个回答,在此向这位名为 n e w a t e r _ _ newater\_\_ newater__的回答者表示感谢,可以说正是因为TA的回答才让我能想通后面的一切。
注 不能保证
A
A
A和
B
B
B具有完全相同的特征向量,也不能说
A
A
A的特征向量一定是
B
B
B的,例
(
1
)
(1)
(1)可说明这两点:
A
=
[
1
0
0
1
]
B
=
[
1
1
0
1
]
(1)
A=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 1 \\ 0 & 1 \\ \end{matrix} \right] \tag{1}
A=[1001] B=[1011](1)显然
A
A
A与
B
B
B可交换但
(
0
,
1
)
T
(0,1)^{T}
(0,1)T是
A
A
A的特征向量却不是
B
B
B的。
推论 1.1 1.1 1.1 若 A B = B A AB=BA AB=BA且 A A A有 n n n个互异的特征值,则 A A A与 B B B有相同的线性无关特征向量集 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {x1,x2,…,xn},且 A A A的特征向量一定也是 B B B的特征向量
分析 A A A有 n n n个互异的特征值 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ1,λ2,…,λn(每个特征值对应一个 1 1 1维的特征子空间),对应的特征向量为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn,且它们是线性无关的。以 λ 1 \lambda_1 λ1和 x 1 x_1 x1为例, x 1 x_1 x1显然是定义在 E A ( λ 1 ) E_A(\lambda_1) EA(λ1)上的线性变换 T T T的特征向量(因为此时 E A ( λ 1 ) = s p a n { x 1 } E_A(\lambda_1) = span\{x_1\} EA(λ1)=span{x1}),其自然也是 B B B的特征向量, x 2 , … , x n x_2, \dots, x_n x2,…,xn同理。因此, x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn也是矩阵 B B B的 n n n个线性无关的特征向量。而由于 A A A的特征值互异,所以 A A A的特征向量只能出现在 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn各自张成的 n n n条“直线”上,自然也是 B B B的特征向量。
注 相比于结论
1
1
1,推论
1.1
1.1
1.1的条件有所加强,即使能推出“
A
A
A与
B
B
B有相同的线性无关特征向量集
{
x
1
,
x
2
,
…
,
x
n
}
\{x_1, x_2, \dots, x_n\}
{x1,x2,…,xn}”,仍然不能保证
A
A
A和
B
B
B具有完全相同的特征向量(如例
(
2
)
(2)
(2))。究其原因在于
B
B
B可能有重复的特征值,导致
B
B
B的特征向量并非只能出现在
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn各自张成的
n
n
n条“直线”上,从而不一定是
A
A
A的特征向量。例如,若
x
1
x_1
x1和
x
2
x_2
x2是
B
B
B的属于同一特征值
λ
B
\lambda_B
λB的两个线性无关的特征向量,那么它们的线性组合
x
1
+
x
2
x_1+x_2
x1+x2也一定是
B
B
B的属于
λ
B
\lambda_B
λB的特征向量,但肯定不是
A
A
A的特征向量。
A
=
[
1
0
0
2
]
B
=
[
1
0
0
1
]
(2)
A=\left[ \begin{matrix} 1 & 0 \\ 0 & 2 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \tag{2}
A=[1002] B=[1001](2)例
(
2
)
(2)
(2)中任一非零向量都是
B
B
B的特征向量,但绝大部分不是
A
A
A的。
推论 1.2 1.2 1.2 若 A B = B A AB=BA AB=BA且 A A A和 B B B均有 n n n个互异的特征值,则 A A A与 B B B有完全相同的特征向量
分析 如果把推论 1.1 1.1 1.1中的条件“ A A A有 n n n个互异的特征值”换为“ B B B有 n n n个互异的特征值”,我们会发下现同理可得结论“ B B B的特征向量一定也是 A A A的特征向量”。现在推论 1.2 1.2 1.2加强条件为“ A A A和 B B B均有 n n n个互异的特征值”,那就说明既有“ A A A的特征向量一定也是 B B B的特征向量”,又有“ B B B的特征向量一定也是 A A A的特征向量”,所以只能有“ A A A与 B B B有完全相同的特征向量”。
推论 1.3 1.3 1.3 若 A B = B A AB=BA AB=BA且 A A A有 n n n个互异的特征值,则 A A A与 B B B可同时对角化
分析 可同时对角化 ( s i m u l t a n e o u s l y d i a g o n a l i z a b l e ) (simultaneously\ diagonalizable) (simultaneously diagonalizable)的意思是不仅 A A A和 B B B是可对角化的,而且还存在同一个可逆矩阵 X X X使得 X − 1 A X X^{-1}AX X−1AX和 X − 1 B X X^{-1}BX X−1BX均为对角阵。由推论 1.1 1.1 1.1的分析知, A A A和 B B B均有 n n n个线性无关的特征向量 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,…,xn,所以显然它们都是可对角化矩阵。定义 X = [ x 1 x 2 … x n ] X=[x_1\ x_2\ \dots \ x_n] X=[x1 x2 … xn],这个 X X X就可以使得 A A A和 B B B同时对角化。
注 实际上,关于同时对角化我们还有如下充要条件:
此定理必要性易证,充分性证明较为困难,可参考以下两个链接🔗
答 L o u i e Louie Louie——关于同时可对角化的证明 | 线代启示录 此链接是台湾阳明交通大学的周志成老师的答疑文,注意留言者提问中的" t h e y h a v e t h e s a m e e i g e n v e c t o r s they\ have\ the\ same\ eigenvectors they have the same eigenvectors"指的是“ A A A与 B B B存在公共的特征向量”而不是说“ A A A与 B B B具有完全一致的特征向量”(反例见前文例 ( 2 ) (2) (2))。
知乎——可交换矩阵(定理 3 3 3) 这个文章中也讨论了关于 A B = B A AB=BA AB=BA的很多东西,并且有非常严谨的数学证明,其中定理 3 3 3的表述与前面“【】”中的定理表述是等价的。
我很确定,这个定理是正确的,借助它我想说明我在 G i l b e r t S t r a n g − I n t r o d u c t i o n t o L i n e a r A l g e b r a , F i f t h E d i t i o n − W e l l e s l e y − C a m b r i d g e P r e s s ( 2016 ) Gilbert\ Strang-Introduction\ to\ Linear\ Algebra,\ Fifth\ Edition-Wellesley-Cambridge\ Press(2016) Gilbert Strang−Introduction to Linear Algebra, Fifth Edition−Wellesley−Cambridge Press(2016)一书中发现的错误:
A and B share the same n independent eigenvectors if and only if AB=BA.
A和B具有相同的n个独立(线性无关)的特征向量当且仅当AB=BA.
这句话出现在 6.1 6.1 6.1节的最后,必要性成立(定理【】)而充分性不成立,反例仍然可选择前面的例 ( 1 ) (1) (1)。
定理【】的前提是“ A A A和 B B B均可对角化”,如果没有这个条件,从 A B = B A AB=BA AB=BA我们只能得到一个较弱的结论:
结论 2 2 2 若 A B = B A AB=BA AB=BA,则 A A A与 B B B可同时上三角化
同样,此结论的证明较为艰深,可参考《矩阵可交换的同时性质》。由此结论我们可以得到一个非常有意思的推论:
推论 2.1 2.1 2.1 若 A B = B A AB=BA AB=BA, λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ1,λ2,…,λn是 A A A的全部特征值, μ 1 , μ 2 , … , μ n \mu_1, \mu_2, \dots, \mu_n μ1,μ2,…,μn是 B B B的全部特征值,则存在 1 , 2 , … , n 1,2,\dots,n 1,2,…,n的排列 τ \tau τ和 δ \delta δ,使得 λ i μ τ ( i ) ( i = 1 , 2 , … , n ) \lambda_i\mu_{\tau(i)}(i=1,2,\dots,n) λiμτ(i)(i=1,2,…,n)构成 A B AB AB的全部特征值, λ i + μ δ ( i ) ( i = 1 , 2 , … , n ) \lambda_i + \mu_{\delta(i)}(i=1,2,\dots,n) λi+μδ(i)(i=1,2,…,n)构成 A + B A+B A+B的全部特征值
至此,我终于把第一类问题该说的说完了!
第二类问题“若 A A A与任意同阶方阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A本身满足什么条件”就没有那么多弯弯绕绕了,但是要注意它和第一类问题的区别。
结论 3 3 3 若 A A A与一切同阶方阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A一定是单位阵的标量倍
分析 设
A
=
(
a
i
j
)
n
×
n
A=(a_{ij})_{n \times n}
A=(aij)n×n,令
D
=
[
1
2
⋱
n
]
,
D=\left[ \begin{matrix} 1 \\ & 2 \\ & & \ddots \\ & & & n \\ \end{matrix} \right],
D=⎣⎢⎢⎡12⋱n⎦⎥⎥⎤,则
A
A
A至少需满足
A
D
=
D
A
AD=DA
AD=DA,根据“右乘列变”可知
A
D
AD
AD就是把
A
A
A的第
i
i
i列变为原来的
i
i
i倍,根据“左乘行变”可知
A
D
AD
AD就是把
A
A
A的第
i
i
i行变为原来的
i
i
i倍,由分析可知
A
A
A只能是对角矩阵。
记
E
i
,
j
E_{i,j}
Ei,j为
(
i
,
j
)
(i,j)
(i,j)位置为
1
1
1,其余位置为
0
0
0的
n
n
n阶矩阵,对任意的
1
⩽
i
,
j
⩽
n
1 \leqslant i,j \leqslant n
1⩽i,j⩽n,有
a
i
i
E
i
,
j
=
A
E
i
,
j
=
E
i
,
j
A
=
a
j
j
E
i
,
j
,
a_{ii}E_{i,j}=AE_{i,j}=E_{i,j}A=a_{jj}E_{i,j},
aiiEi,j=AEi,j=Ei,jA=ajjEi,j,所以
a
i
i
=
a
j
j
a_{ii}=a_{jj}
aii=ajj,即
A
A
A是对角线元素都相等的对角矩阵,就是单位阵的标量倍。
注 实际上可以不用取 D D D先得出 A A A是对角阵,直接用 A E i , j = E i , j A AE_{i,j}=E_{i,j}A AEi,j=Ei,jA(对任意的 1 ⩽ i , j ⩽ n 1 \leqslant i,j \leqslant n 1⩽i,j⩽n成立)把所有位置元素对应相等也能得出结论。
结论 3 3 3的条件是“ A A A与一切同阶方阵 B B B满足 A B = B A AB=BA AB=BA”,其实如果把条件弱化为“ A A A与一切可逆矩阵 B B B满足 A B = B A AB=BA AB=BA”,我们仍然能得到相同的结论。
结论 4 4 4 若 A A A与一切可逆矩阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A一定是单位阵的标量倍
分析 上面用到的
E
i
,
j
E_{i,j}
Ei,j不满秩,不能再直接用了,但是我们发现
E
i
,
j
A
=
A
E
i
,
j
⇔
(
I
+
E
i
,
j
)
A
=
A
(
I
+
E
i
,
j
)
E_{i,j}A=AE_{i,j} \Leftrightarrow (I+E_{i,j})A=A(I+E_{i,j})
Ei,jA=AEi,j⇔(I+Ei,j)A=A(I+Ei,j)而
(
I
+
E
i
,
j
)
(I+E_{i,j})
(I+Ei,j)确实是可逆阵,根据结论
3
3
3的注我们可知仍然能得出“
A
A
A一定是单位阵的标量倍”。
最后让我们再看看那几道把我搞得稀里糊涂的矩阵论习题吧!
问题 1 1 1 证明:若两矩阵 A , B A,B A,B满足 A B = B A AB=BA AB=BA, A A A与 B B B至少存在一个相同的特征向量
分析 问题 1 1 1就是结论 1 1 1。
问题 2 2 2 判断:若 A , B A,B A,B为单纯矩阵(可对角化矩阵),则 A B = B A AB=BA AB=BA的充要条件为存在可逆矩阵 P P P使得 P − 1 A P P^{-1}AP P−1AP和 P − 1 B P P^{-1}BP P−1BP为对角阵
分析 命题✔,就是前面“【】”中定理的等价表述。
问题 3 3 3 判断:若 A B = B A AB=BA AB=BA,且 x x x为 A A A的特征向量,则 B x Bx Bx必为 A A A的特征向量
分析 命题❌,由结论
1
1
1的分析可知,若
x
x
x是
A
A
A的属于特征值
λ
\lambda
λ的特征向量,则
B
x
Bx
Bx必然属于特征子空间
E
A
(
λ
)
E_A(\lambda)
EA(λ),但是
B
x
Bx
Bx完全有可能为零向量,而零向量不可以作为特征向量,比如下面的例
(
3
)
(3)
(3)
A
=
[
1
0
0
1
]
B
=
[
1
0
0
0
]
(3)
A=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 0 \\ 0 & 0 \\ \end{matrix} \right] \tag{3}
A=[1001] B=[1000](3)所有非零向量都是
A
A
A的特征向量,但
B
B
B是一个投影矩阵,它会把任一平行于
(
0
,
1
)
T
(0,1)^{T}
(0,1)T的非零向量
x
x
x变换到零向量的位置,此时
B
x
Bx
Bx不能作为
A
A
A的特征向量了。
问题 4 4 4 证明:设 T T T是数域 P P P上的 n n n维线性空间 V n V^{n} Vn的一个线性变换,若 T T T在任意一组基下的矩阵都相同,则 T T T是数乘变换
分析 设
ε
1
,
ε
2
,
…
,
ε
n
\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n
ε1,ε2,…,εn和
η
1
,
η
2
,
…
,
η
n
\eta_1, \eta_2, \dots, \eta_n
η1,η2,…,ηn是
V
n
V^{n}
Vn的任意两组基,
T
T
T在任意一组基下的矩阵都相同,设为
A
A
A,则有
T
(
ε
1
,
ε
2
,
…
,
ε
n
)
=
[
ε
1
ε
2
…
ε
n
]
A
T(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n)=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]A
T(ε1,ε2,…,εn)=[ε1 ε2 … εn]A
T
(
η
1
,
η
2
,
…
,
η
n
)
=
[
η
1
η
2
…
η
n
]
A
T(\eta_1, \eta_2, \dots, \eta_n)=[\eta_1\ \eta_2\ \dots\ \eta_n]A
T(η1,η2,…,ηn)=[η1 η2 … ηn]A同时再设可逆矩阵
B
B
B为由
ε
1
,
ε
2
,
…
,
ε
n
\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n
ε1,ε2,…,εn到
η
1
,
η
2
,
…
,
η
n
\eta_1, \eta_2, \dots, \eta_n
η1,η2,…,ηn的过渡矩阵,又有
[
η
1
η
2
…
η
n
]
=
[
ε
1
ε
2
…
ε
n
]
B
[\eta_1\ \eta_2\ \dots\ \eta_n]=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]B
[η1 η2 … ηn]=[ε1 ε2 … εn]B
T
(
η
1
,
η
2
,
…
,
η
n
)
=
T
(
ε
1
,
ε
2
,
…
,
ε
n
)
B
=
[
ε
1
ε
2
…
ε
n
]
A
B
=
[
η
1
η
2
…
η
n
]
B
−
1
A
B
\begin{aligned} T(\eta_1, \eta_2, \dots, \eta_n)&=T(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n)B \\ &=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]AB \\ &=[\eta_1\ \eta_2\ \dots\ \eta_n]B^{-1}AB \end{aligned}
T(η1,η2,…,ηn)=T(ε1,ε2,…,εn)B=[ε1 ε2 … εn]AB=[η1 η2 … ηn]B−1AB则有
A
=
B
−
1
A
B
A=B^{-1}AB
A=B−1AB即
A
B
=
B
A
AB=BA
AB=BA,由于
ε
1
,
ε
2
,
…
,
ε
n
\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n
ε1,ε2,…,εn和
η
1
,
η
2
,
…
,
η
n
\eta_1, \eta_2, \dots, \eta_n
η1,η2,…,ηn的选取是任意的,所以可逆矩阵
B
B
B是任意的。
T
T
T是数乘变换意味着
A
A
A只能是单位阵的标量倍。综上,要证明的问题变成了“若
A
A
A与一切可逆矩阵
B
B
B满足
A
B
=
B
A
AB=BA
AB=BA,则
A
A
A一定是单位阵的标量倍”,这就是结论
4
4
4。
问题 5 5 5 证明:设 A \mathcal{A} A是线性空间 V V V的一个线性变换,若 A \mathcal{A} A和 V V V上的每个线性变换都可交换,则 A \mathcal{A} A是数乘变换
分析 取定 V V V的一组基,设 A \mathcal{A} A在这组基下的矩阵为 A A A,则等同于证明:如果 A A A与每个 n n n阶方阵可交换,则 A A A一定是单位阵的标量倍。这就是结论 3 3 3。
甲辰年 冬月初四