矩阵的特征分解

1.特征值和特征向量

线性代数中,特征分解(eigendecomposition)是将矩阵分解为由特征值和特征向量表示的矩阵之积的方法。

给定一个方阵 A ∈ R n × n A \in\mathbb{R}^{n\times n} ARn×n,我们认为在以下条件下, λ ∈ C \lambda \in\mathbb{C} λC A A A特征值 x ∈ C n x\in\mathbb{C}^n xCn是相应的特征向量 A x = λ x , x ≠ 0 Ax=\lambda x,x \ne 0 Ax=λx,x=0直观地说,这个定义意味着将 A A A乘以向量 x x x会得到一个新的向量,该向量指向与 x x x相同的方向,但按系数 λ \lambda λ缩放。值得注意的是,对于任何特征向量 x ∈ C n x\in\mathbb{C}^n xCn和标量 t ∈ C t\in\mathbb{C} tC A ( c x ) = c A x = c λ x = λ ( c x ) A(cx)=cAx=c\lambda x=\lambda(cx) A(cx)=cAx=cλx=λ(cx) c x cx cx也是一个特征向量。
因此,当我们讨论与 λ \lambda λ相关的特征向量时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为 x x x − x −x x都是特征向量,但我们必须接受这一点)。

我们可以重写上面的等式来说明 ( λ , x ) (\lambda,x) (λ,x) A A A的特征值和特征向量的组合: ( λ I − A ) x = 0 , x ≠ 0 (\lambda I-A)x=0,x \ne 0 (λIA)x=0,x=0但是 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λIA)x=0只有当 ( λ I − A ) (\lambda I-A) (λIA)有一个非空零空间时,同时 ( λ I − A ) (\lambda I-A) (λIA)是奇异的, x x x才具有非零解,即: ∣ ( λ I − A ) ∣ = 0 |(\lambda I-A)|=0 (λIA)=0现在,我们可以使用行列式的先前定义将表达式 ∣ ( λ I − A ) ∣ |(\lambda I-A)| (λIA)扩展为 λ \lambda λ中的(非常大的)多项式,其中, λ \lambda λ的度为 n n n。它通常被称为矩阵 A A A的特征多项式。

然后我们找到这个特征多项式的 n n n(可能是复数)根,并用 λ 1 , ⋯   , λ n \lambda_1,\cdots,\lambda_n λ1,,λn表示。这些都是矩阵 A A A的特征值,但我们注意到它们可能不明显。为了找到特征值 λ i \lambda_i λi对应的特征向量,我们只需解线性方程 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λIA)x=0,因为 ( λ I − A ) (\lambda I-A) (λIA)是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。

应该注意的是,这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有 n ! n! n!项),这是一个数学上的争议。

以下是特征值和特征向量的属性(所有假设在 A ∈ R n × n A \in\mathbb{R}^{n\times n} ARn×n具有特征值 λ 1 , ⋯   , λ n \lambda_1,\cdots,\lambda_n λ1,,λn的前提下):

  • A A A的迹等于其特征值之和 tr ⁡ A = ∑ i = 1 n λ i \operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i} trA=i=1nλi

  • A A A的行列式等于其特征值的乘积 ∣ A ∣ = ∏ i = 1 n λ i |A|=\prod_{i=1}^{n} \lambda_{i} A=i=1nλi

  • A A A的秩等于 A A A的非零特征值的个数

  • 假设 A A A非奇异,其特征值为 λ \lambda λ和特征向量为 x x x。那么 1 / λ 1/\lambda 1/λ是具有相关特征向量 x x x A − 1 A^{-1} A1的特征值,即 A − 1 x = ( 1 / λ ) x A^{-1}x=(1/\lambda)x A1x=(1/λ)x。(要证明这一点,取特征向量方程, A x = λ x Ax=\lambda x Ax=λx,两边都左乘 A − 1 A^{-1} A1

  • 对角阵的特征值 d = d i a g ( d 1 , ⋯   , d n ) d=diag(d_1,\cdots,d_n) d=diag(d1,dn)实际上就是对角元素 d 1 , ⋯   , d n d_1,\cdots,d_n d1,dn

注意:只有可对角化矩阵才能特征分解

2.矩阵的特征分解

A \mathbf{A} A是一个 n × n n\times n n×n的方阵,且有 n n n个线性独立的特征向量 q i ( i = 1 , … , n ) \mathbf{q_i} (i=1,\dots,n) qi(i=1,,n),A可以被分解为
A = Q Λ Q − 1 \mathbf{A}=\mathbf{Q}\Lambda \mathbf{Q^{-1}} A=QΛQ1
其中 Q \mathbf{Q} Q n × n n\times n n×n方阵,且第 i i i A A A的特征向量 q i \mathbf{q_i} qi Λ \Lambda Λ是对角矩阵,其对角线上的元素为对应的特征值,即 Λ i i = λ i \mathbf{\Lambda_{ii}=\lambda_i} Λii=λi
一般而言,特征向量 q i ( i = 1 , … , n ) \mathbf{q_i} (i=1,\dots,n) qi(i=1,,n)被单位化,但是未被单位化的特征向量 v i ( i = 1 , … , n ) \mathbf{v_i} (i=1,\dots,n) vi(i=1,,n)也可以作为 Q \mathbf{Q} Q的列向量。可以理解为 Q \mathbf{Q} Q中向量的长度被 Q − 1 \mathbf{Q^{-1}} Q1抵消了。

3.直观理解

先说结论

将向量看作空间中一个点,矩阵可视作点的运动,对于可以矩阵分解的矩阵:

  • 特征值就是运动的速度
  • 特征向量就是运动的方向

令矩阵 A = [ 5 2 − 3 2 − 3 2 3 2 ] = [ 3 2 1 2 − 1 2 3 2 ] [ 3 0 0 1 ] [ 3 2 − 1 2 1 2 3 2 ] = Q Λ Q − 1 \mathbf{A}= \begin{bmatrix} \frac{5}{2} & -\frac{\sqrt{3}}{2} \\ -\frac{\sqrt{3}}{2} & \frac{3}{2} \end{bmatrix} =\begin{bmatrix} \frac{\sqrt{3}}{2} & \frac{1}{2} \\ -\frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix} \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix}\\ =\mathbf{Q}\Lambda \mathbf{Q^{-1}} A=[2523 23 23]=[23 212123 ][3001][23 212123 ]=QΛQ1

A \mathbf{A} A左乘一个单位矩阵 I = [ x , y ] = [ 1 0 0 1 ] \mathbf{I=[x,y]=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}} I=[x,y]=[1001],即 A I = Q Λ Q − 1 I \mathbf{AI}=\mathbf{Q\Lambda Q^{-1}I} AI=QΛQ1I
我们看下向量 x , y x, y x,y发生了什么变换
Q − 1 I = [ 3 2 − 1 2 1 2 3 2 ] \mathbf{Q^{-1}I}= \begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix} Q1I=[23 212123 ]

向量 x = [ 1 0 ] ⇒ [ 3 2 1 2 ] \mathbf{x}=\begin{bmatrix}1 \\ 0\end{bmatrix} \Rightarrow \begin{bmatrix}\frac{\sqrt{3}}{2} \\ \frac{1}{2} \end{bmatrix} x=[10][23 21],向量 y = [ 0 1 ] ⇒ [ − 1 2 3 2 ] \mathbf{y}=\begin{bmatrix}0 \\ 1\end{bmatrix} \Rightarrow \begin{bmatrix} -\frac{1}{2} \\ \frac{\sqrt{3}}{2} \end{bmatrix} y=[01][2123 ]

可以看出, x , y \mathbf{x,y} x,y分别逆时针旋转 π 6 \frac{\pi}{6} 6π
怎么办到的呢?给定要给一个题目,将二维平面上一点逆时针旋转 θ \theta θ,求旋转后得坐标。可以解得:
{ x r = x cos ⁡ θ − y sin ⁡ θ y r = x sin ⁡ θ + y cos ⁡ θ \left\{ \begin{array}{c} x_r=x\cos\theta-y\sin\theta \\ y_r=x\sin\theta+y\cos\theta \end{array} \right. {xr=xcosθysinθyr=xsinθ+ycosθ
θ = π 6 \theta=\frac{\pi}{6} θ=6π
{ x r = 3 2 x − 1 2 y y r = 1 2 x + 3 2 y \left\{ \begin{array}{c} x_r=\frac{\sqrt{3}}{2}x-\frac{1}{2}y \\ y_r=\frac{1}{2}x+\frac{\sqrt{3}}{2}y \end{array} \right. {xr=23 x21yyr=21x+23 y
比对一下上式与 Q − 1 \mathbf{Q^{-1}} Q1,会发现两者相同,所以, Q − 1 \mathbf{Q^{-1}} Q1得作用就是将单位矩阵每个列向量逆时针旋转 π 6 \frac{\pi}{6} 6π

对角矩阵 Λ \mathbf{\Lambda} Λ则是将向量沿着特征向量的方向放缩, Q \mathbf{Q} Q再将旋转的向量还原回去。

4.通过特征分解求逆矩阵

若矩阵 A \mathbf{A} A可被特征分解且特征值中不含 0 0 0,则矩阵 A \mathbf{A} A为非奇异矩阵,且其逆矩阵
A = Q Λ − 1 Q − 1 \mathbf{A=Q\Lambda^{-1}Q^{-1}} A=QΛ1Q1
因为 Λ \mathbf{\Lambda} Λ为对角矩阵,其逆矩阵容易计算出
[ Λ − 1 ] i i = 1 λ i \mathbf{[\Lambda^{-1}]_{ii}=\frac{1}{\lambda_i}} [Λ1]ii=λi1

5.对特殊矩阵的矩阵分解

对称矩阵

任意的实对称矩阵的特征值都是实数且有 n n n个线性无关的特征向量,并且这些特征向量都可以正交单位化得到一组正交且模长为1的向量。实对称矩阵可被分解成
A = Q Λ Q − 1 = Q Λ Q T \mathbf{A=Q\Lambda Q^{-1}=Q\Lambda Q^T} A=QΛQ1=QΛQT
Q \mathbf{Q} Q为正交矩阵, Λ \mathbf{\Lambda} Λ为实对角矩阵

参考

特征分解
如何理解矩阵特征值?

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值