线性代数---特征值与特征向量
二维空间某个线性变换
-
对于二维空间两个基向量 i ^ \hat i i^ 和 j ^ \hat j j^,发生线性变换之后得到
-
i ^ = [ 3 0 ] \hat i = \begin{bmatrix} 3\\ 0\\ \end{bmatrix} i^=[30] 和 j ^ = [ 1 2 ] \hat j = \begin{bmatrix} 1\\ 2\\ \end{bmatrix} j^=[12]
-
用矩阵来表示 [ 3 1 0 2 ] \begin{bmatrix} 3 & 1\\ 0 & 2 \\ \end{bmatrix} [3012]
-
若仅仅考虑这个向量张成的原空间(未发生线性变换)
-
补充:张成(span):向量空间 V V V中的一组向量 ( V 1 , V 2 , . . . , V m ) (V_1,V_2,...,V_m) (V1,V2,...,Vm)的线性组合是如下形式的向量: a 1 v 1 + a 2 v 2 + . . . + a m v m a_1v_1 + a_2v_2 + ... + a_mv_m a1v1+a2v2+...+amvm
-
若发生线性变换之后,大部分向量都离开了其张成的空间
-
若发生线性变换之后,某些特殊向量的确留在它们张成的空间里
-
意味着矩阵对它的作用仅仅是拉伸或者压缩而已,如同一个标量
在本例中
-
i ^ \hat i i^张成的空间为x轴, [ 3 0 ] \begin{bmatrix} 3\\ 0\\ \end{bmatrix} [30]意味着 i ^ \hat i i^变成了原来的3倍,仍留在在x轴上
-
因此,在x轴上的任何其他向量都只是被拉伸为原来的3倍,它们也留在了 i ^ \hat i i^张成空间里
-
还有一个略显隐蔽的向量 [ − 1 1 ] \begin{bmatrix} -1\\ 1\\ \end{bmatrix} [−11],在变换汇总也留在自己张成的空间里,最终被拉伸为原来的2倍
-
同上,线性性质暗示着一点,处在它所张成的对角线上的其他任何一个向量 ,也仅仅倍拉伸为原来的2倍
-
对于上述矩阵,以上两向量就是拥有这一特殊性质它们张成的空间里)的向量
因此,上述这些特殊向量就被称为变换的“特征向量”
- 特征值:即衡量特征向量在变换中拉伸或压缩比例的因子
对于特征值的正负问题
-
特征值为负,意味着这个向量被反向,并压缩为原来的1/2
-
发生线性变换之后,该向量依旧停留在它张成的直线上,并未发生旋转
3维向量(特征值的用途)
- 例如,3维物体发生旋转,其中的旋转轴就为其特征向量,且为3维物体张成的空间里的向量,且特征值为1,因为旋转并不缩放任何一个向量,向量长度不变
特征向量在线性变换中的作用
-
对于任一矩阵描述的线性变换
-
可以通过将矩阵的列看作变换后的基向量来理解它
-
但这较少依赖于特定坐标系
-
最好理解线性变换在于,求出从矩阵变换之后的特征向量和特征值
特征向量的概念与计算
-
特征向量概念
A v ⃗ = λ v ⃗ A\vec v = \lambda \vec v Av=λv
-
抽象理解:变换矩阵 A A A和特征向量 v ⃗ \vec v v乘积,发生线性变换,等价于, 特征向量 v ⃗ \vec v v拉伸或压缩了多少倍的特征值 λ \lambda λ
-
实际上就是求解使得这个等式成立的向量 v ⃗ \vec v v和数 λ \lambda λ
如何求解该等式
- 首先将等号右侧重写为某个矩阵向量乘积( λ v ⃗ \lambda\vec v λv)
- 其中,矩阵的作用效果是将任一向量乘以 λ \lambda λ
- 这个矩阵的列代表着变换后的基向量,每一个基向量仅仅与 λ \lambda λ 相乘
- 因此该矩阵的对角元均为
λ
\lambda
λ,其余位置都是0,
[
λ
0
0
0
λ
0
0
0
λ
]
\begin{bmatrix} \lambda & 0 & 0\\ 0 & \lambda & 0\\ 0 & 0 & \lambda \end{bmatrix}
λ000λ000λ
- 且我们需要一个非零解的 v ⃗ \vec v v特征向量
- 因此,当且仅当矩阵(括号里)代表的变换将空间压缩到更低的维度时,即行列式为0,可以求出,非零解的特征向量
d e t ( A − λ I ) = 0 det(A-\lambda I) = 0 det(A−λI)=0 - 补充:求矩阵的行列式的意义为:该矩阵在线性变换过程中,变换前后面积变化比例
- 当且仅当 d e t ( A ) = 0 det(A) = 0 det(A)=0时,矩阵代表的变换将空间压缩到更低的维度
-
Squishification(空间压缩) 等价于 d e t ( A − λ I ) = 0 det(A - \lambda I) = 0 det(A−λI)=0
#举例
-
考虑每个对角元都减去某个变量 λ \lambda λ
-
矩阵本身发生改变,因此行列式也在改变
-
找到一个 λ \lambda λ使得这个行列式为0
-
使得 ( A − λ I ) v ⃗ = 0 ⃗ (A-\lambda I) \vec v = \vec 0 (A−λI)v=0, I I I为单位阵
#几何解释
-
向量 v ⃗ \vec v v在变换中停留在它张成的空间里
-
在上述例子中,v对应的特征值为1,实际上保持不变
#公式推导
A
v
⃗
=
λ
v
⃗
A\vec v = \lambda \vec v
Av=λv
A
v
⃗
−
λ
v
⃗
=
0
A\vec v - \lambda \vec v = 0
Av−λv=0
(
A
−
λ
I
)
v
⃗
=
0
⃗
(A-\lambda I)\vec v = \vec 0
(A−λI)v=0
d
e
t
(
A
−
λ
I
)
=
0
det(A-\lambda I) = 0
det(A−λI)=0
#举例
-
将 λ = 2 \lambda = 2 λ=2 带入矩阵之后,求解线性方程组
[ 1 1 0 0 ] [ x y ] = [ 0 0 ] \begin{bmatrix} 1 & 1\\ 0 & 0\\ \end{bmatrix} \begin{bmatrix} x\\ y\\ \end{bmatrix} = \begin{bmatrix} 0\\ 0\\ \end{bmatrix} [1010][xy]=[00] -
由于, r ( A ) = r ( [ A , B ] ) = 1 r(A) = r([A,B]) = 1 r(A)=r([A,B])=1 该方程组有唯一解,且解为 [ − 1 1 ] \begin{bmatrix} -1\\ 1\\ \end{bmatrix} [−11] (特征向量)张成的对角线上
-
相较于原始矩阵,相当于将特征向量拉伸为原来的2倍
二维变换不一定有特征向量
-
若将原始矩阵 旋转90°
-
一般来说,特征值出现复数的情况,一般对应于变换中的某种旋转
#剪切变换
-
i
^
\hat i
i^不变,将j帽向右移动一个单位
- 若将所有向量拉伸为2倍,
特征基
- 如果我们的基向量恰好是特征向量,除了对角线以外其他元素均为0的矩阵称为对角矩阵,对角线元素进行拉伸或收缩
-
矩阵的对角线是它们所属的特征值
#性质
-
相较于非对角矩阵
-
对于非对角矩阵(非特殊矩阵)
-
发生线性变换有许多的特征向量,多到能选出一个张成全空间的集合,即为满秩
-
就能将这些特殊向量作为基
用基变换角度,求解非对称矩阵的幂运算(相似对角化)
#举例
- 对于矩阵 [ 3 1 0 2 ] \begin{bmatrix} 3 &1\\ 0&2\\ \end{bmatrix} [3012],其特征向量为 [ 1 0 ] \begin{bmatrix} 1\\ 0\\ \end{bmatrix} [10]和 [ − 1 1 ] \begin{bmatrix} -1\\ 1\\ \end{bmatrix} [−11]
- 并将其特征向量作为基,作为一个矩阵的列,该矩阵就是基变换矩阵
- 然后再右侧写下基变换矩阵,左侧学下基变换矩阵的逆,将原始的变换夹在两个矩阵中间
- 得出相似矩阵概念,设A,B为两个n阶方阵,n阶可逆矩阵P
P − 1 A P = B P^{-1}AP = B P−1AP=B - 称A相似于B,记成A~B
#几何解释 - 从新基向量所构成的坐标系的角度来看
- 可逆矩阵P和矩阵P,仅仅把矩阵A的特征向量方向上进行拉伸和收缩,因此一定得出一个对角矩阵B
- 矩阵A和B,具有相同的特征向量和特征值
- 因此,要计算矩阵 [ 3 1 0 2 ] 100 \begin{bmatrix} 3 & 1\\ 0 & 2 \\ \end{bmatrix}^{100} [3012]100
- 先转化到特征基,在那个坐标系中计算100次幂,然后再转化回标准坐标系
#剪切变换
-
对于剪切变换,它的特征向量不够多,并不能张成全空间(不为满秩)
-
因为只有一个特征向量 [ 1 0 ] \begin{bmatrix} 1\\ 0\\ \end{bmatrix} [10]
#作业
引用:
B站up主:3Blue1Brown线性代数合集https://www.bilibili.com/video/BV1ys411472E?p=14&vd_source=c98261ef21552fd30ecdf82bd57320f1