最近遇到很多需要线代的数学推导,作为学渣这一类的知识总是看一遍忘一遍,理解不了线代的几何意义。这一次刷了著名的3Blue1Brown系列视频,还有贴心up主的中文配音版。感兴趣的童鞋可以看一看,如何从几何运动角度理解线性代数。
作为学渣还是得记录一下推导过程。
1. 线性变换
A
v
Av
Av
用二维矩阵举例。
- 在以 i ^ = [ 1 0 ] , j ^ = [ 0 1 ] \hat{i}=\begin{bmatrix}1\\0\end{bmatrix},\hat{j}=\begin{bmatrix}0\\1\end{bmatrix} i^=[10],j^=[01]为基的坐标系中,向量 v ⃗ = [ 3 − 2 ] = 3 ⋅ i ^ − 2 ⋅ j ^ \vec v =\begin{bmatrix}3\\-2\end{bmatrix} =3\cdot \hat i -2\cdot \hat j v=[3−2]=3⋅i^−2⋅j^。可以理解为向量 v ⃗ \vec v v由基 i ^ \hat i i^拉伸3倍后,再与 j ^ \hat j j^反向拉伸2倍得到。
- 对向量
v
⃗
\vec v
v作线性变换
A
v
⃗
A\vec v
Av,等效于对基向量做相同的变换后,再用相同的关系组和变换后的基向量,即:
A = [ 1 3 − 2 0 ] A v = A ( 3 ⋅ i ^ − 2 ⋅ j ^ ) = 3 A i ^ − 2 A j ^ [ 1 3 − 2 0 ] ⋅ [ 3 − 2 ] = t r a n s ( v ) = 3 ⋅ t r a n s ( i ^ ) + ( − 2 ) ⋅ t r a n s ( j ^ ) = 3 [ 1 − 2 ] + ( − 2 ) [ 3 0 ] \begin{aligned} A&=\begin{bmatrix} 1 &3 \\-2 &0 \end{bmatrix}\\ Av &= A(3\cdot \hat i -2\cdot \hat j) = 3A\hat i -2 A\hat j\\ \begin{bmatrix} 1 &3 \\-2 &0 \end{bmatrix}\cdot \begin{bmatrix} 3 \\-2 \end{bmatrix}= trans(v) &=3 \cdot trans(\hat{i}) + (-2) \cdot trans(\hat{j}) \\ &= 3\begin{bmatrix} 1 \\-2 \end{bmatrix} + (-2)\begin{bmatrix} 3 \\0 \end{bmatrix}\end{aligned} AAv[1−230]⋅[3−2]=trans(v)=[1−230]=A(3⋅i^−2⋅j^)=3Ai^−2Aj^=3⋅trans(i^)+(−2)⋅trans(j^)=3[1−2]+(−2)[30] - 那么A矩阵中的两列 [ 1 − 2 ] , [ 3 0 ] \begin{bmatrix} 1 \\-2 \end{bmatrix},\begin{bmatrix} 3 \\0 \end{bmatrix} [1−2],[30]等价于原坐标系的基 i ^ , j ^ \hat{i},\hat j i^,j^利用相同的线性变换后得到的向量。
2.行列式
d
e
t
(
A
)
det(A)
det(A)
矩阵A对某个向量做线性变换,我们可以想象成对整个坐标空间的拉伸或压缩。以二维空间举例。
- 做线性变换前,坐标空间由基向量 i ^ , j ^ \hat{i},\hat j i^,j^组成了一个单位面积;经历线性变换A后,基向量 i ^ , j ^ \hat{i},\hat j i^,j^变换为 [ 1 − 2 ] , [ 3 0 ] \begin{bmatrix} 1 \\-2 \end{bmatrix} ,\begin{bmatrix} 3 \\0 \end{bmatrix} [1−2],[30],由这两个向量组成的平行四边形面积就是矩阵A的行列式 d e t ( A ) det(A) det(A)。
- 假如变换后的 i ^ , j ^ \hat{i},\hat j i^,j^线性相关, [ 1 1 ] , [ − 1 − 1 ] \begin{bmatrix} 1 \\1 \end{bmatrix} ,\begin{bmatrix} -1 \\-1 \end{bmatrix} [11],[−1−1]。相当于把原二维空间压缩到了一维的直线上。那么单位面积经变换后,面积压缩为0,此时 d e t ( A ) = 0 det(A)=0 det(A)=0。
因此行列式 d e t ( A ) det(A) det(A)的几何意义,就是整个坐标空间在经历A的拉伸或压缩后,单位面积/体积/空间的变化比例。
3.特征值、特征向量
A
x
=
λ
x
Ax=\lambda x
Ax=λx
A是n阶矩阵,如果
λ
\lambda
λ和n维非零向量
x
⃗
\vec x
x有以上关系,那么
λ
\lambda
λ称为A的特征值,
x
⃗
\vec x
x称为A的特征向量。
- 根据前面的解释我们知道,A做的线性变换,是将原空间做线性变换。如果变换后的基向量间线性相关,那么变换后的空间会被降维;降维后的空间维数,被称为A的秩。
- 特征向量
x
⃗
\vec x
x的几何意义就在于,原空间经A线性变换后,方向没有发生变化的向量。这个向量经历的变化仅仅是被拉伸、或压缩,而被拉伸或压缩的比例就是
λ
\lambda
λ值。
计算时:
A x = λ x ( A − λ ) x = 0 \begin{aligned} Ax&=\lambda x \\(A-\lambda)x&=0 \\ \end{aligned} Ax(A−λ)x=λx=0
∣ a 11 − λ a 12 ⋯ a 1 n a 21 a 22 − λ ⋯ a 1 n ⋮ ⋮ ⋮ a n 1 a n 2 ⋯ a n n − λ ∣ = 0 \begin{vmatrix} a_{11}-\lambda & a_{12} &\cdots& a_{1n} \\ a_{21}& a_{22}-\lambda &\cdots& a_{1n} \\ \vdots & \vdots&&\vdots\\ a_{n1} & a_{n2} &\cdots &a_{nn} -\lambda \end{vmatrix} =0 ∣∣∣∣∣∣∣∣∣a11−λa21⋮an1a12a22−λ⋮an2⋯⋯⋯a1na1n⋮ann−λ∣∣∣∣∣∣∣∣∣=0
求解满足上述条件的 λ \lambda λ值
性质:
- (1) λ 1 + ⋯ + λ m = a 11 + a 22 + ⋯ + a n n \lambda_1+\cdots+ \lambda_m = a_{11}+a_{22}+\cdots+a_{nn} λ1+⋯+λm=a11+a22+⋯+ann,迹
- (2) λ 1 ⋯ λ m = ∣ A ∣ \lambda_1\cdots\lambda_m=|A| λ1⋯λm=∣A∣
- (3)如果 λ 1 , ⋯   , λ m \lambda_1,\cdots,\lambda_m λ1,⋯,λm之间各不相等,对应的特征向量 p 1 , ⋯   , p m p_1,\cdots,p_m p1,⋯,pm线性无关
4.相似矩阵
P
−
1
A
P
=
B
P^{-1}AP = B
P−1AP=B
如果满足上述条件,那么A、B就是相似矩阵。
-
A、B其实是同一个线性变换在不同基下的矩阵,就是相似矩阵。
-
假设有两组不同的基,构成了两个坐标系 O 1 , O 2 O_1,O_2 O1,O2。两个坐标系之间的坐标可以通过线性变换P,和逆向变换 P − 1 P^{-1} P−1相互转换。即 P ⋅ x 1 = x 2 ; P − 1 ⋅ x 2 = x 1 P\cdot x_1 = x_2;P^{-1}\cdot x_2=x_1 P⋅x1=x2;P−1⋅x2=x1。
- 假设线性变换A是以坐标系 O 2 O_2 O2为基础的运动,但目前我只有 O 1 O_1 O1坐标系的向量 v ⃗ \vec v v;我们想要知道向量 v ⃗ \vec v v在坐标系 O 1 O_1 O1中经历A的等价变换后的结果。
- 可以让向量 v ⃗ \vec v v先通过变换P,得到在 O 2 O_2 O2坐标系的坐标,即 P ⋅ v ⃗ P\cdot \vec v P⋅v;
- 再通过线性变换A,得到在 O 2 O_2 O2坐标系中变换后的坐标,即 A P ⋅ v ⃗ AP \cdot \vec v AP⋅v;
- 通过逆变换 P − 1 P^{-1} P−1,得到在 O 1 O_1 O1坐标系中做等价变换后的坐标,即 P − 1 A P ⋅ v ⃗ P^{-1}AP \cdot \vec v P−1AP⋅v
-
而整个过程等价于 v ⃗ \vec v v直接在 O 1 O_1 O1坐标系中做以 O 1 O_1 O1为基础的等价运动,即 B ⋅ v ⃗ B\cdot \vec v B⋅v。
-
因此A、B相似的意义是分别基于坐标系 O 1 , O 2 O_1,O_2 O1,O2的等价运动。
性质:
- 如果A、B相似,则A、B的特征值相同
∣ B − λ E ∣ = ∣ P − 1 A P − λ P − 1 P ∣ = ∣ P − 1 ( A − λ ) P ∣ = ∣ A − λ ∣ |B-\lambda E|=|P^{-1}AP-\lambda P^{-1}P|=|P^{-1}(A-\lambda)P|=|A-\lambda| ∣B−λE∣=∣P−1AP−λP−1P∣=∣P−1(A−λ)P∣=∣A−λ∣
(可以想象成,不管是在哪个坐标系下做线性变换,只要是等价的变换(A、B)相似,变换后的效果是相同的。)
5.矩阵对角化
P
−
1
A
P
=
Λ
P^{-1}AP = \Lambda
P−1AP=Λ
其中
Λ
\Lambda
Λ是一个对角矩阵。对于对角矩阵
Λ
\Lambda
Λ ,特征值就是对角线上的所有元素。如果A和对角矩阵
Λ
\Lambda
Λ 相似,那么对角矩阵上的所有元素都是A的特征值。
性质:
- 如果存在
P
,
P
−
1
P,P^{-1}
P,P−1,那么P的列向量就是A的特征向量。
A P = P Λ A ( p 1 , p 2 , ⋯   , p n ) = ( p 1 , p 2 , ⋯   , p n ) Λ = ( p 1 , p 2 , ⋯   , p n ) [ λ 1 λ 2 ⋱ λ n ] = ( λ 1 p 1 , λ 2 p 2 , ⋯   , λ n p n ) \begin{aligned}AP&=P\Lambda \\ A(p_1,p_2,\cdots,p_n)&=(p_1,p_2,\cdots,p_n)\Lambda \\ &=(p_1,p_2,\cdots,p_n)\begin{bmatrix}\lambda_1&&& \\&\lambda_2&& \\&&\ddots &\\&&&\lambda_n\end{bmatrix} \\ &=(\lambda_1p_1,\lambda_2p_2,\cdots,\lambda_np_n)\end{aligned} APA(p1,p2,⋯,pn)=PΛ=(p1,p2,⋯,pn)Λ=(p1,p2,⋯,pn)⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤=(λ1p1,λ2p2,⋯,λnpn)
即 A p i = λ 1 p i Ap_i = \lambda_1p_i Api=λ1pi,因此 p i p_i pi是A对应 λ i \lambda_i λi的特征向量。 - 但只有n个特征向量 p i p_i pi线性无关时, P − 1 P^{-1} P−1才存在
- 如果有n个值不同的 λ i \lambda_i λi, p i p_i pi一定线性无关,A一定能对角化
6.对称矩阵的对角化
A
=
A
T
,
P
−
1
A
P
=
Λ
A=A^T,P^{-1}AP=\Lambda
A=AT,P−1AP=Λ
性质:
-
(1) 如果 λ i , λ j \lambda_i,\lambda_j λi,λj是对称阵A的两个特征值, p 1 , p 2 p_1,p_2 p1,p2是对应的特征向量。如果 λ 1 ≠ λ 2 \lambda_1 \quad \neq \lambda_2 λ1̸=λ2,那么 p 1 p_1 p1和 p 2 p_2 p2正交
A = A T , A p 1 = λ 1 p 1 , A p 2 = λ 1 p 2 λ 1 p 1 T = ( λ 1 p 1 ) T = ( A p 1 ) T = p 1 T A T = p 1 T A λ 1 p 1 T p 2 = p 1 T A p 2 = λ 2 ( p 1 T p 2 ) ( λ 1 − λ 2 ) p 1 T p 2 = 0 \begin{aligned} A=A^T,Ap_1 = \lambda_1p_1,Ap_2 = \lambda_1p_2\\ \lambda_1p_1^T = (\lambda_1p_1)^T = (Ap_1)^T = p_1^TA^T=p_1^TA\\ \lambda_1p_1^T p_2 = p_1^TAp_2 = \lambda_2(p_1^Tp_2)\\ (\lambda_1-\lambda_2)p_1^Tp_2 = 0\end{aligned} A=AT,Ap1=λ1p1,Ap2=λ1p2λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TAλ1p1Tp2=p1TAp2=λ2(p1Tp2)(λ1−λ2)p1Tp2=0 -
(2) 实对称矩阵,必定有正交阵P,使 P − 1 A P = P T A P = Λ P^{-1}AP = P^TAP = \Lambda P−1AP=PTAP=Λ. (抄书,为啥我并不明白)
7.矩阵的迹
如果
A
∈
R
n
×
n
A \in R^{n\times n}
A∈Rn×n,迹
t
r
A
=
∑
i
=
1
n
a
i
i
trA = \sum_{i=1}^n a_{ii}
trA=∑i=1naii。
性质:
- (1) t r A = t r A T trA = trA^T trA=trAT
- (2) t r ( A + B ) = t r A + t r B tr(A+B) =trA + trB tr(A+B)=trA+trB
- (3) t r ( c A ) = c ⋅ t r A tr(c A) = c \cdot trA tr(cA)=c⋅trA,c是常数项
- (4)
t
r
(
A
B
)
=
t
r
(
B
A
)
tr(AB) =tr(BA)
tr(AB)=tr(BA)
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ] , B = [ b 11 b 12 ⋯ b 1 n b 21 b 22 ⋯ b 2 n ⋮ ⋮ ⋱ ⋮ b n 1 b n 2 ⋯ b n n ] A=\begin{bmatrix}a_{11} & a_{12} & \cdots &a_{1n}\\ a_{21} & a_{22} & \cdots &a_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ a_{n1} & a_{n2} & \cdots &a_{nn}\end{bmatrix}, B=\begin{bmatrix}b_{11} & b_{12} & \cdots &b_{1n}\\ b_{21} & b_{22} & \cdots &b_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ b_{n1} & b_{n2} & \cdots &b_{nn}\end{bmatrix} A=⎣⎢⎢⎢⎡a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎦⎥⎥⎥⎤,B=⎣⎢⎢⎢⎡b11b21⋮bn1b12b22⋮bn2⋯⋯⋱⋯b1nb2n⋮bnn⎦⎥⎥⎥⎤
t r ( A B ) = ∑ i = 1 n ( A B ) i i = ∑ i = 1 n ∑ j = 1 n a i j b j i = ∑ j = 1 n ∑ i = 1 n b j i a i j = ∑ i = 1 n ( B A ) j j = t r ( B A ) tr(AB) =\sum_{i=1}^n(AB)_{ii}=\sum_{i=1}^n\sum_{j=1}^na_{ij}b_{ji}=\sum_{j=1}^n\sum_{i=1}^nb_{ji}a_{ij}=\sum_{i=1}^n(BA)_{jj}=tr(BA) tr(AB)=∑i=1n(AB)ii=∑i=1n∑j=1naijbji=∑j=1n∑i=1nbjiaij=∑i=1n(BA)jj=tr(BA) - (5) t r ( A B C ) = t r ( C A B ) = t r ( B C A ) tr(ABC)=tr(CAB)=tr(BCA) tr(ABC)=tr(CAB)=tr(BCA)
- (6)
∂
t
r
(
A
B
)
∂
A
=
∂
t
r
(
B
A
)
∂
A
=
B
T
\frac{\partial tr(AB)}{\partial A} = \frac{\partial tr(BA)}{\partial A} =B^T
∂A∂tr(AB)=∂A∂tr(BA)=BT
t r ( A B ) = ∑ i = 1 n ( A B ) i i = ∑ i = 1 n ∑ j = 1 n a i j b j i ∂ t r ( A B ) ∂ a i j = b j i ∂ t r ( A B ) ∂ A = B T \begin{aligned}tr(AB)&=\sum_{i=1}^n(AB)_{ii}=\sum_{i=1}^n\sum_{j=1}^na_{ij}b_{ji} \\ \frac{\partial tr(AB)}{\partial a_{ij}}&= b_{ji} \\ \frac{\partial tr(AB)}{\partial A} &=B^T\end{aligned} tr(AB)∂aij∂tr(AB)∂A∂tr(AB)=i=1∑n(AB)ii=i=1∑nj=1∑naijbji=bji=BT - (7) ∂ t r ( A T B ) ∂ A = ∂ t r ( B A T ) ∂ A = B \frac{\partial tr(A^TB)}{\partial A}=\frac{\partial tr(BA^T)}{\partial A} =B ∂A∂tr(ATB)=∂A∂tr(BAT)=B
- (8) ∂ t r ( A B A T C ) ∂ A = C T A B T + C A B \frac{\partial tr(ABA^TC)}{\partial A}=C^TAB^T +CAB ∂A∂tr(ABATC)=CTABT+CAB