关于AB=BA即矩阵可交换的一切

关于 A B = B A AB=BA AB=BA的一切

前两天在做矩阵论的习题,被出现的几道关于 A B = B A AB=BA AB=BA的题目搞得糊里糊涂。但是经过我不停地网罗资料和不停地思考(真的吃饭睡觉都在琢磨),我终于通透了。下面将我几天的成果整理到一起,也供后人参考。


一般来说矩阵乘法不满足交换律,当特殊情况下满足 A B = B A AB=BA AB=BA我们称 A A A B B B可交换矩阵。自然地, A A A B B B必须是同阶方阵(设为 n n n阶)才会有后话。我将涉及到 A B = B A AB=BA AB=BA的问题大致分为两类:

1 1 1.某两个矩阵 A A A B B B可交换,即满足 A B = B A AB=BA AB=BA A A A B B B之间有什么样的联系?
2 2 2.若 A A A与任意同阶方阵 B B B可交换,则 A A A本身满足什么条件?

我们先就第一类问题展开讨论。

结论 1 1 1 A B = B A AB=BA AB=BA,则对于 A A A的任一特征值 λ \lambda λ,存在向量 x 0 x_0 x0即是属于 A A A的特征值 λ \lambda λ的特征向量,也是属于 B B B的特征值 μ \mu μ的特征向量,即 A A A B B B存在公共的特征向量

分析 λ \lambda λ为矩阵 A A A的任一特征值,对应的特征子空间为 E A ( λ ) = { x ∈ C n ∣ A x = λ x } E_A(\lambda) =\{ x \in \mathbb{C^{n}} \mid Ax = \lambda x \} EA(λ)={xCnAx=λx}

对于 ∀   x ∈ E A ( λ ) \forall \ x \in E_A(\lambda)  xEA(λ),有
A ( B x ) = ( A B ) x = ( B A ) x = B ( A x ) = B ( λ x ) = λ ( B x ) , A(Bx) = (AB)x = (BA)x = B(Ax) = B(\lambda x) = \lambda (Bx), A(Bx)=(AB)x=(BA)x=B(Ax)=B(λx)=λ(Bx),这意味着 B x ∈ E A ( λ ) Bx \in E_A(\lambda) BxEA(λ)。因此,我们可以将 T ( x ) = B x T(x) = Bx T(x)=Bx 视为定义在线性空间 E A ( λ ) E_A(\lambda) EA(λ)上的线性变换。

根据代数基本定理,任何定义在复数域上的有限维线性空间中的线性变换必定有特征值和对应的特征向量。因此,线性变换 T T T的特征向量 x 0 x_0 x0一定存在,则有
T ( x 0 ) = B x 0 = μ x 0 T(x_0) = Bx_0=\mu x_0 T(x0)=Bx0=μx0 x 0 x_0 x0必然也是 B B B的属于特征值 μ \mu μ 的特征向量(注意, B B B的特征向量不一定是 T T T的,因为 T T T仅在子空间 E A ( λ ) E_A(\lambda) EA(λ)上定义,而非整个 C n \mathbb{C^{n}} Cn)。由于 x 0 ∈ E A ( λ ) x_0 \in E_A(\lambda) x0EA(λ) x 0 x_0 x0自然也是 A A A的特征向量。因此, A A A B B B存在公共的特征向量 x 0 x_0 x0

以上分析过程并不是我独立思考出来的,而是主要基于《百度知道》十几年前的一个回答,在此向这位名为 n e w a t e r _ _ newater\_\_ newater__的回答者表示感谢,可以说正是因为TA的回答才让我能想通后面的一切。

不能保证 A A A B B B具有完全相同的特征向量,也不能说 A A A的特征向量一定是 B B B的,例 ( 1 ) (1) (1)可说明这两点:
A = [ 1 0 0 1 ]       B = [ 1 1 0 1 ] (1) A=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 1 \\ 0 & 1 \\ \end{matrix} \right] \tag{1} A=[1001]     B=[1011](1)显然 A A A B B B可交换但 ( 0 , 1 ) T (0,1)^{T} (0,1)T A A A的特征向量却不是 B B B的。

推论 1.1 1.1 1.1 A B = B A AB=BA AB=BA A A A n n n个互异的特征值,则 A A A B B B有相同的线性无关特征向量集 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {x1,x2,,xn},且 A A A的特征向量一定也是 B B B的特征向量

分析 A A A n n n个互异的特征值 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ1,λ2,,λn(每个特征值对应一个 1 1 1维的特征子空间),对应的特征向量为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,且它们是线性无关的。以 λ 1 \lambda_1 λ1 x 1 x_1 x1为例, x 1 x_1 x1显然是定义在 E A ( λ 1 ) E_A(\lambda_1) EA(λ1)上的线性变换 T T T的特征向量(因为此时 E A ( λ 1 ) = s p a n { x 1 } E_A(\lambda_1) = span\{x_1\} EA(λ1)=span{x1}),其自然也是 B B B的特征向量, x 2 , … , x n x_2, \dots, x_n x2,,xn同理。因此, x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn也是矩阵 B B B n n n个线性无关的特征向量。而由于 A A A的特征值互异,所以 A A A的特征向量只能出现在 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn各自张成的 n n n条“直线”上,自然也是 B B B的特征向量。

相比于结论 1 1 1,推论 1.1 1.1 1.1的条件有所加强,即使能推出“ A A A B B B有相同的线性无关特征向量集 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {x1,x2,,xn}”,仍然不能保证 A A A B B B具有完全相同的特征向量(如例 ( 2 ) (2) (2))。究其原因在于 B B B可能有重复的特征值,导致 B B B的特征向量并非只能出现在 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn各自张成的 n n n条“直线”上,从而不一定是 A A A的特征向量。例如,若 x 1 x_1 x1 x 2 x_2 x2 B B B的属于同一特征值 λ B \lambda_B λB的两个线性无关的特征向量,那么它们的线性组合 x 1 + x 2 x_1+x_2 x1+x2也一定是 B B B的属于 λ B \lambda_B λB的特征向量,但肯定不是 A A A的特征向量。
A = [ 1 0 0 2 ]       B = [ 1 0 0 1 ] (2) A=\left[ \begin{matrix} 1 & 0 \\ 0 & 2 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \tag{2} A=[1002]     B=[1001](2) ( 2 ) (2) (2)中任一非零向量都是 B B B的特征向量,但绝大部分不是 A A A的。

推论 1.2 1.2 1.2 A B = B A AB=BA AB=BA A A A B B B均有 n n n个互异的特征值,则 A A A B B B有完全相同的特征向量

分析 如果把推论 1.1 1.1 1.1中的条件“ A A A n n n个互异的特征值”换为“ B B B n n n个互异的特征值”,我们会发下现同理可得结论“ B B B的特征向量一定也是 A A A的特征向量”。现在推论 1.2 1.2 1.2加强条件为“ A A A B B B均有 n n n个互异的特征值”,那就说明既有“ A A A的特征向量一定也是 B B B的特征向量”,又有“ B B B的特征向量一定也是 A A A的特征向量”,所以只能有“ A A A B B B有完全相同的特征向量”。

推论 1.3 1.3 1.3 A B = B A AB=BA AB=BA A A A n n n个互异的特征值,则 A A A B B B可同时对角化

分析 可同时对角化 ( s i m u l t a n e o u s l y   d i a g o n a l i z a b l e ) (simultaneously\ diagonalizable) (simultaneously diagonalizable)的意思是不仅 A A A B B B是可对角化的,而且还存在同一个可逆矩阵 X X X使得 X − 1 A X X^{-1}AX X1AX X − 1 B X X^{-1}BX X1BX均为对角阵。由推论 1.1 1.1 1.1的分析知, A A A B B B均有 n n n个线性无关的特征向量 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,所以显然它们都是可对角化矩阵。定义 X = [ x 1   x 2   …   x n ] X=[x_1\ x_2\ \dots \ x_n] X=[x1 x2  xn],这个 X X X就可以使得 A A A B B B同时对角化。

实际上,关于同时对角化我们还有如下充要条件:

【设 n n n阶矩阵 A A A B B B均可对角化,则 A A A B B B可同时对角化当且仅当 A B = B A AB=BA AB=BA

此定理必要性易证,充分性证明较为困难,可参考以下两个链接🔗

L o u i e Louie Louie——关于同时可对角化的证明 | 线代启示录 此链接是台湾阳明交通大学的周志成老师的答疑文,注意留言者提问中的" t h e y   h a v e   t h e   s a m e   e i g e n v e c t o r s they\ have\ the\ same\ eigenvectors they have the same eigenvectors"指的是“ A A A B B B存在公共的特征向量”而不是说“ A A A B B B具有完全一致的特征向量”(反例见前文例 ( 2 ) (2) (2))。

知乎——可交换矩阵(定理 3 3 3) 这个文章中也讨论了关于 A B = B A AB=BA AB=BA的很多东西,并且有非常严谨的数学证明,其中定理 3 3 3的表述与前面“【】”中的定理表述是等价的。

我很确定,这个定理是正确的,借助它我想说明我在 G i l b e r t   S t r a n g − I n t r o d u c t i o n   t o   L i n e a r   A l g e b r a ,   F i f t h   E d i t i o n − W e l l e s l e y − C a m b r i d g e   P r e s s ( 2016 ) Gilbert\ Strang-Introduction\ to\ Linear\ Algebra,\ Fifth\ Edition-Wellesley-Cambridge\ Press(2016) Gilbert StrangIntroduction to Linear Algebra, Fifth EditionWellesleyCambridge Press(2016)一书中发现的错误:

 A and B share the same n independent eigenvectors if and only if AB=BA.
 A和B具有相同的n个独立(线性无关)的特征向量当且仅当AB=BA.

这句话出现在 6.1 6.1 6.1节的最后,必要性成立(定理【】)而充分性不成立,反例仍然可选择前面的例 ( 1 ) (1) (1)

定理【】的前提是“ A A A B B B均可对角化”,如果没有这个条件,从 A B = B A AB=BA AB=BA我们只能得到一个较弱的结论:

结论 2 2 2 A B = B A AB=BA AB=BA,则 A A A B B B可同时上三角化

同样,此结论的证明较为艰深,可参考《矩阵可交换的同时性质》。由此结论我们可以得到一个非常有意思的推论:

推论 2.1 2.1 2.1 A B = B A AB=BA AB=BA λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ1,λ2,,λn A A A的全部特征值, μ 1 , μ 2 , … , μ n \mu_1, \mu_2, \dots, \mu_n μ1,μ2,,μn B B B的全部特征值,则存在 1 , 2 , … , n 1,2,\dots,n 1,2,,n的排列 τ \tau τ δ \delta δ,使得 λ i μ τ ( i ) ( i = 1 , 2 , … , n ) \lambda_i\mu_{\tau(i)}(i=1,2,\dots,n) λiμτ(i)(i=1,2,,n)构成 A B AB AB的全部特征值, λ i + μ δ ( i ) ( i = 1 , 2 , … , n ) \lambda_i + \mu_{\delta(i)}(i=1,2,\dots,n) λi+μδ(i)(i=1,2,,n)构成 A + B A+B A+B的全部特征值

至此,我终于把第一类问题该说的说完了!


第二类问题“若 A A A与任意同阶方阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A本身满足什么条件”就没有那么多弯弯绕绕了,但是要注意它和第一类问题的区别。

结论 3 3 3 A A A与一切同阶方阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A一定是单位阵的标量倍

分析 A = ( a i j ) n × n A=(a_{ij})_{n \times n} A=(aij)n×n,令
D = [ 1 2 ⋱ n ] , D=\left[ \begin{matrix} 1 \\ & 2 \\ & & \ddots \\ & & & n \\ \end{matrix} \right], D=12n, A A A至少需满足 A D = D A AD=DA AD=DA,根据“右乘列变”可知 A D AD AD就是把 A A A的第 i i i列变为原来的 i i i倍,根据“左乘行变”可知 A D AD AD就是把 A A A的第 i i i行变为原来的 i i i倍,由分析可知 A A A只能是对角矩阵。

E i , j E_{i,j} Ei,j ( i , j ) (i,j) (i,j)位置为 1 1 1,其余位置为 0 0 0 n n n阶矩阵,对任意的 1 ⩽ i , j ⩽ n 1 \leqslant i,j \leqslant n 1i,jn,有
a i i E i , j = A E i , j = E i , j A = a j j E i , j , a_{ii}E_{i,j}=AE_{i,j}=E_{i,j}A=a_{jj}E_{i,j}, aiiEi,j=AEi,j=Ei,jA=ajjEi,j,所以 a i i = a j j a_{ii}=a_{jj} aii=ajj,即 A A A是对角线元素都相等的对角矩阵,就是单位阵的标量倍。

实际上可以不用取 D D D先得出 A A A是对角阵,直接用 A E i , j = E i , j A AE_{i,j}=E_{i,j}A AEi,j=Ei,jA(对任意的 1 ⩽ i , j ⩽ n 1 \leqslant i,j \leqslant n 1i,jn成立)把所有位置元素对应相等也能得出结论。

结论 3 3 3的条件是“ A A A与一切同阶方阵 B B B满足 A B = B A AB=BA AB=BA”,其实如果把条件弱化为“ A A A与一切可逆矩阵 B B B满足 A B = B A AB=BA AB=BA”,我们仍然能得到相同的结论。

结论 4 4 4 A A A与一切可逆矩阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A一定是单位阵的标量倍

分析 上面用到的 E i , j E_{i,j} Ei,j不满秩,不能再直接用了,但是我们发现
E i , j A = A E i , j ⇔ ( I + E i , j ) A = A ( I + E i , j ) E_{i,j}A=AE_{i,j} \Leftrightarrow (I+E_{i,j})A=A(I+E_{i,j}) Ei,jA=AEi,j(I+Ei,j)A=A(I+Ei,j) ( I + E i , j ) (I+E_{i,j}) (I+Ei,j)确实是可逆阵,根据结论 3 3 3我们可知仍然能得出“ A A A一定是单位阵的标量倍”。


最后让我们再看看那几道把我搞得稀里糊涂的矩阵论习题吧!

问题 1 1 1 证明:若两矩阵 A , B A,B A,B满足 A B = B A AB=BA AB=BA A A A B B B至少存在一个相同的特征向量

分析 问题 1 1 1就是结论 1 1 1

问题 2 2 2 判断:若 A , B A,B A,B为单纯矩阵(可对角化矩阵),则 A B = B A AB=BA AB=BA的充要条件为存在可逆矩阵 P P P使得 P − 1 A P P^{-1}AP P1AP P − 1 B P P^{-1}BP P1BP为对角阵

分析 命题✔,就是前面“【】”中定理的等价表述。

问题 3 3 3 判断:若 A B = B A AB=BA AB=BA,且 x x x A A A的特征向量,则 B x Bx Bx必为 A A A的特征向量

分析 命题❌,由结论 1 1 1的分析可知,若 x x x A A A的属于特征值 λ \lambda λ的特征向量,则 B x Bx Bx必然属于特征子空间 E A ( λ ) E_A(\lambda) EA(λ),但是 B x Bx Bx完全有可能为零向量,而零向量不可以作为特征向量,比如下面的例 ( 3 ) (3) (3)
A = [ 1 0 0 1 ]       B = [ 1 0 0 0 ] (3) A=\left[ \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right] \ \ \ \ \ B=\left[ \begin{matrix} 1 & 0 \\ 0 & 0 \\ \end{matrix} \right] \tag{3} A=[1001]     B=[1000](3)所有非零向量都是 A A A的特征向量,但 B B B是一个投影矩阵,它会把任一平行于 ( 0 , 1 ) T (0,1)^{T} (0,1)T的非零向量 x x x变换到零向量的位置,此时 B x Bx Bx不能作为 A A A的特征向量了。

问题 4 4 4 证明:设 T T T是数域 P P P上的 n n n维线性空间 V n V^{n} Vn的一个线性变换,若 T T T在任意一组基下的矩阵都相同,则 T T T是数乘变换

分析 ε 1 , ε 2 , … , ε n \varepsilon_1, \varepsilon_2, \dots, \varepsilon_n ε1,ε2,,εn η 1 , η 2 , … , η n \eta_1, \eta_2, \dots, \eta_n η1,η2,,ηn V n V^{n} Vn的任意两组基, T T T在任意一组基下的矩阵都相同,设为 A A A,则有
T ( ε 1 , ε 2 , … , ε n ) = [ ε 1   ε 2   …   ε n ] A T(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n)=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]A T(ε1,ε2,,εn)=[ε1 ε2  εn]A T ( η 1 , η 2 , … , η n ) = [ η 1   η 2   …   η n ] A T(\eta_1, \eta_2, \dots, \eta_n)=[\eta_1\ \eta_2\ \dots\ \eta_n]A T(η1,η2,,ηn)=[η1 η2  ηn]A同时再设可逆矩阵 B B B为由 ε 1 , ε 2 , … , ε n \varepsilon_1, \varepsilon_2, \dots, \varepsilon_n ε1,ε2,,εn η 1 , η 2 , … , η n \eta_1, \eta_2, \dots, \eta_n η1,η2,,ηn的过渡矩阵,又有
[ η 1   η 2   …   η n ] = [ ε 1   ε 2   …   ε n ] B [\eta_1\ \eta_2\ \dots\ \eta_n]=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]B [η1 η2  ηn]=[ε1 ε2  εn]B T ( η 1 , η 2 , … , η n ) = T ( ε 1 , ε 2 , … , ε n ) B = [ ε 1   ε 2   …   ε n ] A B = [ η 1   η 2   …   η n ] B − 1 A B \begin{aligned} T(\eta_1, \eta_2, \dots, \eta_n)&=T(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n)B \\ &=[\varepsilon_1\ \varepsilon_2\ \dots\ \varepsilon_n]AB \\ &=[\eta_1\ \eta_2\ \dots\ \eta_n]B^{-1}AB \end{aligned} T(η1,η2,,ηn)=T(ε1,ε2,,εn)B=[ε1 ε2  εn]AB=[η1 η2  ηn]B1AB则有 A = B − 1 A B A=B^{-1}AB A=B1AB A B = B A AB=BA AB=BA,由于 ε 1 , ε 2 , … , ε n \varepsilon_1, \varepsilon_2, \dots, \varepsilon_n ε1,ε2,,εn η 1 , η 2 , … , η n \eta_1, \eta_2, \dots, \eta_n η1,η2,,ηn的选取是任意的,所以可逆矩阵 B B B是任意的。 T T T是数乘变换意味着 A A A只能是单位阵的标量倍。综上,要证明的问题变成了“若 A A A与一切可逆矩阵 B B B满足 A B = B A AB=BA AB=BA,则 A A A一定是单位阵的标量倍”,这就是结论 4 4 4

问题 5 5 5 证明:设 A \mathcal{A} A是线性空间 V V V的一个线性变换,若 A \mathcal{A} A V V V上的每个线性变换都可交换,则 A \mathcal{A} A是数乘变换

分析 取定 V V V的一组基,设 A \mathcal{A} A在这组基下的矩阵为 A A A,则等同于证明:如果 A A A与每个 n n n阶方阵可交换,则 A A A一定是单位阵的标量倍。这就是结论 3 3 3


甲辰年 冬月初四

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值