模式识别系列｜数学篇(2)特征值与特征向量

最新推荐文章于 2022-11-01 17:23:39 发布

Tianlong Lee

最新推荐文章于 2022-11-01 17:23:39 发布

阅读量1.9k

点赞数 3

分类专栏： Pattern Classification

本文链接：https://blog.csdn.net/ly18846826264/article/details/103998681

版权

Pattern Classification 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

几乎从本科开始接触特征值与特征向量时，每次都是背一个公式，而不知其所以然，因此在结束模式识别课程后，又对其进行了梳理，总结了特征值与特征向量的物理意义（经矩阵变换后方向不变而长度发生变化）、常用公式和两个实际应用。

1-矩阵与线性变换

我们学习矩阵总是从方程组开始，通过线性组合一个向量产生新的向量，将所有的系数写在一起就形成了矩阵，方程组可以表示为 $A x = b$ ，若 $A$ 为方阵，则原来的坐标系下一点 $[x_1,x_2, \cdots, x_n]^T$ 经过A的变换变为同一坐标系下另一点 $[b_1,b_2,\cdots,b_n]^T$ ，
$\begin{bmatrix} x_1\\x_2\\ \vdots \\ x_n\end{bmatrix} \rightarrow \begin{bmatrix} b_1\\b_2\\ \vdots \\ b_n\end{bmatrix}$ 若 $A$ 不是方阵，则原来的点被变为另一个坐标系下（维度增加或减少）的点。讨论特征值与特征向量是以方阵为条件的。
在这里插入图片描述

举个简单例子：二维坐标系下 $1,1)^T$ 点经过 $\begin{bmatrix}3&1\\0&2\end{bmatrix}$ 变换成 $4,2)^T$ ，方阵A的每一行对应由原始坐标进行线性组合形成的新的坐标的一个维度的值，即
$b_1 = a_{11}x_1 + a_{12}x_2\\ b_2 = a_{21}x_1 + a_{22}x_2$ 可见，对应坐标下某个维度的数值相较于原始坐标的相同维度进行了 $a_{ii}$ 的缩放，同时也加入了其他维度值的影响，反映在坐标轴上，就是发生了旋转。因此，一个矩阵对应一个线性变换，其实就是将原始坐标点进行旋转和伸缩到另一个点上的变换。当矩阵A为对角阵时，只有伸缩变换，否则，二者均有。示意图如下：
在这里插入图片描述

2-特征值与特征向量的物理意义

那么给定一个方阵 $A$ ，我们能干什么呢？同样是上面例子中的矩阵 $A$ ，我们在n维（矩阵 $A$ 的维度）坐标系中任意选取一个向量，矩阵 $A$ 都会将其进行伸缩与旋转，如下图： $x$ 为长度为1，角度360变换的向量， $A x$ 为经过 $A$ 变换后的向量，经过一周旋转后，可以看到在 $0^o$ 和 $135^0$ 方向上，向量x与变换后的向量Ax的方向一致，但长度发生变换。即作为二维空间变换阵的A有两个方向是保证不发生旋转而只进行伸缩的。用数学表示为 $Ax=\lambda x$ ，当然若保证x方向不变， $A x$ 相对x的伸缩倍数是不变的，即 $\alpha Ax = \alpha \lambda x$ ，其中 $\alpha$ 是实数。

我们称经过矩阵A变换后只发生伸缩变换的向量x为特征向量，伸缩的程度称为特征值。如果特征值为负，则表示变换后的向量与原始向量方向相反，特征值的个数为n个（n为矩阵 $A$ 的维度），特征向量的个数原则上有无数个，只要满足在某个方向即可。

在这里插入图片描述

3-特征值特征向量的定义与公式

下面对矩阵的特征值与特征向量进行一些数学上的表示，对n阶方阵 $A$ ，若存在一个n维非零列向量与实数 $\lambda$ ，使得满足方程 $\lambda x$ ，则 $\lambda$ 为矩阵A的特征值，x称为矩阵A的对应特征值 $\lambda$ 的特征向量。引用张宇对该公式的表述：一个块乘以一个列等于一个数乘以一个列。
$\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots &\ a_{2n}\\ \vdots& \vdots& \ddots& \vdots \\ a_{n1}& a_{n2}& \cdots& a_{nn}\end{bmatrix} \begin{bmatrix} x_1\\x_2\\ \vdots\\ x_n\end{bmatrix}=\lambda \begin{bmatrix} x_1\\x_2\\ \vdots\\ x_n\end{bmatrix}$

3.1-特征值与特征向量的求解

将等式右侧改为 $\lambda I x$ 亦保证结果不变，其中 $I$ 为单位阵，它乘以列向量 $x$ 仍然是其本身。然后将等式右侧移到左侧，可化简为 $(A-\lambda I)x = 0$ 从方程角度考虑，x为非零列向量，因此 $A-\lambda I$ 的行列式值应为0，即 $det(A-\lambda I)=0$ ；
从矩阵角度考虑，其次方程有非零解，因此 $A-\lambda I$ 应为奇异阵，即 $rank(A-\lambda I)\neq n$ 。
两种理解是等价的。求出 $\lambda$ 后再返回去带入方程求解特征向量。

以 $A=\begin{bmatrix}3&1\\0&2\end{bmatrix}$ 为例求解：
1、 $det(A-\lambda I)=0 \rightarrow (3-\lambda)(2-\lambda)=0\rightarrow \lambda_1=3, \quad \lambda_2=2$
2、代入原公式求解：
对 $\lambda_1=3$ ， $\begin{bmatrix}0&1\\0&-1\end{bmatrix}x=0\rightarrow x=[1,0]^T$
对 $\lambda_2=2$ ， $\begin{bmatrix}1&1\\0&0\end{bmatrix}x=0\rightarrow x=[-1,1]^T$

3.2-矩阵A的常用变换的特征值与特征向量

$A$	$a A + b I$	$A^k$	$f (A)$	$A^{-1}$	$A^*$	$P^{-1}AP$
$\lambda$	$a\lambda+b$	$\lambda^k$	$f(\lambda)$	$\frac{1}{\lambda}$	$\frac{\\|A\\|}{\lambda}$	$\lambda$
$x$	$x$	$x$	$x$	$x$	$x$	$P^{-1}x$

3.3- 常用矩阵形式公式

前面提到特征值特征向量定义式时我们说一个块（ $n\times n$ ）乘以一个列（ $n\times1$ ）还是一个列（ $n\times1$ ），我们知道一个 $n$ 维方阵 $A$ 有 $n$ 个特征向量，我们将其用一个矩阵乘法表示，就是一个块（ $n\times n$ ）乘以一个块（ $n\times n$ ）还是一个块（ $n\times n$ ），即用矩阵 $A$ 同时对 $n$ 个特征列向量进行变换可以得到每个列向量都与 $n$ 个特征向量的每一列成倍数关系的新的 $n$ 个列向量。用公式表示如下：
$\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots &\ a_{2n}\\ \vdots& \vdots& \ddots& \vdots \\ a_{n1}& a_{n2}& \cdots& a_{nn}\end{bmatrix} \begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots& \ddots& \vdots\\ x_{n1}&x_{n2}&\cdots&x_{nn}\end{bmatrix} = \begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots& \ddots& \vdots\\ x_{n1}&x_{n2}&\cdots&x_{nn}\end{bmatrix}\begin{bmatrix} \lambda_1&0&\cdots&0\\ 0&\lambda_2&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\lambda_n\end{bmatrix}$

将特征值构成的对角阵用 $\Lambda$ 表示，将特征向量构成的矩阵用 $\phi$ 表示，上述方程可以写为 $A\phi=\phi\Lambda$ 方程两端同时右乘 $\phi^{-1}$ 可得 $\phi \Lambda \phi^{-1}$ ，即矩阵A可以用特征值和特征向量来表示；
方程两端同时左乘 $\phi^{-1}$ 可得 $\Lambda=\phi^{-1}A\phi$ ，即使用特征向量可以将矩阵A进行对角化。

由 $\phi \Lambda \phi^{-1}$ 可知，矩阵A可以表示为特征向量构成的矩阵与特征值构成的矩阵的变换， $\Lambda$ 为特征值构成的对角阵，数值大小可以衡量相应特征向量的重要程度。很容易理解，例如如果A对某个特征向量 $x_1$ 的变换等于该特征向量的100倍，而对另一个特征向量 $x_2$ 的变换等于该特征向量的0.01倍，显然 $x_1$ 比 $x_2$ 重要得多。