矩阵的特征分解（推导+手算+python计算+对称矩阵的特征分解性质）

最新推荐文章于 2024-08-25 10:41:32 发布

洛克-李

最新推荐文章于 2024-08-25 10:41:32 发布

阅读量2.5k

点赞数 6

分类专栏：机器学习文章标签：线性代数 python 机器学习算法矩阵

本文链接：https://blog.csdn.net/qq_30232405/article/details/104588455

版权

机器学习专栏收录该内容

21 篇文章 3 订阅

订阅专栏

文章目录

1. 前言
2.矩阵的进阶知识
- 2.1 特征分解（谱分解）=>只可以用在方阵上

1. 前言

要学会矩阵的特征分解，可以提前看矩阵的一些基础知识：
https://blog.csdn.net/qq_30232405/article/details/104588293

2.矩阵的进阶知识

2.1 特征分解（谱分解）=>只可以用在方阵上

2.1.1 特征分解的原理

如果说一个向量 $v$ 是方阵 $A$ 的特征向量，将一定可以表示成下面的形式：
$Av=\lambda v \tag{2-1}$

这种形式在数学上的含义：描述的是矩阵 $A$ 对向量 $v$ 的变换效果只有拉伸，没有旋转。(因为 $\lambda$ 这个值是一个数值)
这时候 $\lambda$ 就被称为特征向量 $v$ 对应的特征值

也可以看成矩阵 $A$ ，向量 $v$ ，系数 $\lambda$ 这三者建立了一种联系，但显然我们无法通过式(2-1)来用 $v$ 和 $\lambda$ 表示 $A$ ，因为这个式子不是完备的，对于一个秩为 $m$ 的矩阵 $A$ ，应该存在 $m$ 个这样的式子，完备式子应该是：
$A(v_1,v_2,...,v_m)=(\lambda_1 v_1,\lambda_2 v_2,...,\lambda_m v_m)=(v_1,v_2,...,v_m) \begin{bmatrix} \lambda_1 & ... & 0 \\ \vdots & \ddots & \vdots \\ 0 & ... & \lambda_m \\ \end{bmatrix}$
$AV=V\Lambda \tag{2-2}$

根据公式(2-2)就可以得到矩阵 $A$ 的特征分解公式：

$A=V\Lambda V^{-1} \tag{2-3}$

矩阵的一组特征向量 $V$ 是一组正交向量。
其中 $V$ 是这个矩阵 $A$ 的特征向量组成的矩阵， $\Lambda$ 是一个对角阵，每一个对角线上的元素就是一个特征值。

总结：特征分解，可以得到 $m$ 个特征向量和特征值，利用这 $m$ 个特征（代表这个矩阵最重要的特征），就可以近似这个矩阵。

2.1.2 特征分解的合理性

一个矩阵和该矩阵的非特征向量相乘是对该向量的旋转变换；一个矩阵和该矩阵的特征向量相乘是对该向量的伸缩变换，其中伸缩程度取决于特征值大小。

矩阵在特征向量所指的方向上具有增强（或减弱）特征向量的作用。这也就是说，如果矩阵持续地叠代作用于向量，那么特征向量的就会突显出来，利用python进行计算：

首先举一个例子，假设矩阵 $A$ 和向量 $V$ :
$\begin{bmatrix} 4 & 1 & 1 \\ 1 & 2 & 1 \\ 3 & 2 & 3 \\ \end{bmatrix}$
$\begin{bmatrix} -1 \\ 5 \\ 3 \\ \end{bmatrix}$

用矩阵 $A$ 去反复左乘一个向量 $V$ ，python代码如下：

import numpy as np
import copy
A = np.array([[4, 1, 1], [1, 2, 1], [3, 2, 3]])
V = np.array([[-1], [5], [3]])
dot_nums = [1, 3, 5, 10]
for i in range(len(dot_nums)):
    A_ = copy.copy(A)
    for _ in range(dot_nums[i] - 1):
        A_ = np.dot(A_, A)
    B = np.dot(A_, V)
    B = np.abs(B)
    C = B / np.sum(B)
    print("dot number: %d" % dot_nums[i])
    print(C)

得到结果：

python模拟左乘

可以看到不断左乘A后，变换后的归一化向量在（0.33，0.2，0.46）附近徘徊，这与计算出来的最大特征值对应的特征向量归一化后的结果是一致的，这也就佐证了矩阵是具有某种不变的特性的。因此为了提取矩阵这种“不变性”，或者说是为了描述变换（矩阵惩罚是一种线性变换）的主要方向是非常有必要的。

2.1.3 特征分解的计算

在 (2-1) 式的基础上，进行一些变形：
$Av=\lambda v \to Av=\lambda Iv \to (\lambda I-A)v = 0 \tag{2-4}$
根据线性方程组理论，为了使这个方程有非零解，矩阵 $(\lambda I-A)$ 的行列式必须是零:
$det(\lambda I-A)v = 0 \tag{2-5}$
上式也被称为是 $A$ 的特征方程，计算出所有 $\lambda$ 的取值后，再代入 $(\lambda I-A)v = 0$ 求解对应的 $v$

注意：要注意特征值是重根时的情况。。。。

（1）手算

求矩阵 $A$ 的特征值和特征向量：
$|\lambda I-A| = \begin{vmatrix} 4 & 1 & 1 \\ 1 & 2 & 1 \\ 3 & 2 & 3 \\ \end{vmatrix} = (\lambda-6)(\lambda-2)(\lambda-1)$

可以得到结果：
$\lambda_1 = 6, \lambda_2 = 2, \lambda_3=1$

当 $\lambda=6$ 时， $(6 I - A) v = 0$ :
$\begin{pmatrix} 4 & 1 & 1 \\ 1 & 2 & 1 \\ 3 & 2 & 3 \\ \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \\ v_3 \\ \end{pmatrix} = 0$
$result: v_1 = 5, v_2=3, v_3=7$

当 $\lambda=2$ 时， $(2 I - A) v = 0$ :
$result: v_1 = 1, v_2=-1, v_3=1$

当 $\lambda=1$ 时， $(I - A) v = 0$ :
$result: v_1 = 0, v_2=1, v_3=-1$

（2）python计算

使用python中自带的库eig，其中 $V$ 为特征向量矩阵， $D$ 为特征值。 $V$ 中的列是对应的每一个特征向量

import numpy as np
import copy
A = np.array([[4, 1, 1], [1, 2, 1], [3, 2, 3]])
D, V = np.linalg.eig(A)
if np.equal(np.dot(A, V), np.dot(V, np.diag(D))):
    print(True)

结果为：

python特征分解

发现python计算的和手算的特征向量值不同，但比例是一样的，这是因为特征向量不是唯一的，特征向量来自齐次线性方程组的解，是齐次线性方程组的基础解系的非零线性组合。

2.1.4 对称矩阵的特征分解（这个性质后面SVD推导用到）

定理：假设矩阵 $A$ 是一个对称矩阵，则其不同特征值对应的特征向量两两正交。

证明：

首先进行特征分解：
$Ax_i=\lambda_i x_i \tag{2-6}$
$Ax_j=\lambda_j x_j \tag{2-7}$

在公式(2-6)左乘 $x_j$ :
$x_j^\mathrm{T} Ax_i=\lambda_i x_j^\mathrm{T} x_i \tag{2-8}$

因为矩阵A是一个对称矩阵，可以对式(2-8)的左边做如下变换：

$x_j^\mathrm{T} Ax_i=x_j^\mathrm{T} A^\mathrm{T} x_i = (Ax_j)^\mathrm{T} x_i = (\lambda_j x_j)^\mathrm{T}x_i = \lambda_i x_j^\mathrm{T} x_i \tag{2-9}$

最后通过(2-9)可以得到：

$(\lambda_j x_j)^\mathrm{T}x_i = \lambda_i x_j^\mathrm{T} x_i \to (\lambda_j - \lambda_i)x_j^\mathrm{T}x_i = 0 \tag{2-10}$
因为 $\lambda_j \neq \lambda_i$ ， $x_j^\mathrm{T}x_i$ 必然等于0。
由于 $x_j$ 和 $x_i$ 是矩阵A的任意两个特征向量，所以命题得证。