特征值的理解

最新推荐文章于 2025-02-22 18:12:33 发布

原创最新推荐文章于 2025-02-22 18:12:33 发布 · 5.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#特征值 #PCA #SVD #机器学习

机器学习同时被 3 个专栏收录

3 篇文章

订阅专栏

数据挖掘

3 篇文章

订阅专栏

SVD

2 篇文章

订阅专栏

前面两篇文章讲了PCA和SVD，发现要完全理解，必须要有一些矩阵的基础知识。在这里再补充一下自己对特征值的理解，希望对大家有所帮助，有不正确的地方，欢迎大家指出。

首先，让我们来理解一下矩阵。很多地方都提到过，我们可以将向量与矩阵相乘，理解成对向量的一次转换，也就是行列变换。
假设我们有一个 $3\times 3$ 的单位矩阵 $I$ ，有一个向量 $a$ 。我们知道 $I a = a$ 。
$\left[ \begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right] , a=[a_1,a_2,a_3]^T$

现在我们将单位矩阵的第一行乘上2，
$\left[ \begin{matrix} 2 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right], I'a=[2a_1,a_2,a_3]^T$

可以看到，矩阵a的第一行也变成了原来的两倍。我们再将 $I^{'}$ 的第二行加到第一行上面去，
$\left[ \begin{matrix} 2 & 1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right], I''a=[2a_1+a_2,a_2,a_3]^T$

可以看到，矩阵a也将第二行加到第一行上面去了。所以，我们的确可以将向量与矩阵相乘，理解成对向量的一次行列变换。

现在，我们来看一看矩阵的特征值和特征向量。
我们发现有些向量 $x$ 比较特殊，用矩阵对它进行行列变换后，向量的方向没有变化，只是在原来的基础上，扩大或缩小了 $\lambda$ 倍， $Ax=\lambda x$ 。我们把这样的向量，称作矩阵的特征向量，而把这个 $\lambda$ 称作矩阵的特征值。（注：只有方阵才有特征值，特征值的数量和矩阵的行数相等）

特征值的发现能够方便我们计算。假设 $x_1$ 和 $x_2$ 是矩阵 $A$ 的两个特征向量， $Ax_1=\lambda x_1$ ， $Ax_2=\lambda x_2$ ；假设空间中的某个向量可以由特征向量表示， $a=\alpha x_1 + \beta x_2$ 。
用矩阵 $A$ 对向量 $a$ 进行转换， $Aa=\alpha Ax_1 + \beta Ax_2=\alpha \lambda_1 x_1 + \beta \lambda_2 x_2$ ，只用把两个向量相加，我们就能知道变换后的结果，大大简化了我们的行列计算。

其实，我们可以把特征向量理解成一个特殊坐标系，每一个特征向量表示一个坐标轴，用矩阵 $A$ 的特征向量组成的坐标系来表示空间中的向量 $a$ ，能够大大简化矩阵 $A$ 对向量 $a$ 的转换计算。

上面讲的，都是线性代数中的概念，没有什么实际意义。
在实际情况中，我们遇到的是数据，想处理的也是数据。一个 $m\times n$ 矩阵包含的信息是一组数据，比如 $n$ 个样本，每个样本又有 $m$ 个维度的值。它不是一个方阵，也没有特征值和特征向量。我们能够用特征值对这个矩阵作什么处理呢？

虽然我们得到的数据矩阵 $A_{m\times n}$ 没有特征值和特征向量，但是 $AA^T$ 却是一个 $m\times m$ 的方阵，并且是一个对称方阵。矩阵 $AA^T$ 是有特征值的， ${e_1，e_2,...,e_m\}$ 。并且对称矩阵还有一个很重要的性质，对称矩阵的特征值两两正交， $e_i^T e_j = 0, i\neq j$ 。

证明：
$\lambda_ie_i^T \cdot e_j=(\lambda_ie_i)^Te_j \\ =(AA^Te_i)^Te_j \\ =e_i^TAA^Te_j \\ =e_i^T\lambda_j e_j \\ \lambda_i e_i \cdot e_j = \lambda_j e_i \cdot e_j$
如果特征值 $\lambda$ 不相等的话，那么 $e_i^T e_j = 0$ ，特征向量 $e_i，e_j$ 就是正交。

假设矩阵 $E=\{ e_1,e_2,...,e_m \}$ ，它是列由 $AA^T$ 的特征向量构成的一个矩阵，那么有 $AA^TE=\{ \lambda_1 e_1,\lambda_2 e_2,...,\lambda_m e_m\}$ 。假设 $D$ 是一个对称矩阵，
$\left[ \begin{matrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \lambda_m \end{matrix} \right]$

$ED=\{\lambda_1 e_1,\lambda_2 e_2,...,\lambda_m e_m\}$ 。所以 $AA^TE=ED，AA^T = EDE^{-1}$ 。我们知道特征值 ${ e_1，e_2,...,e_m \}$ 两两正交，因而 $E$ 是一个正交矩阵。正交矩阵有一个性质， $E^{-1}=E^T$ 。

证明：让我们来看下 $E^TE$ 的第 $ij^{th}$ 个元素， $E^TE)_{ij}=e_i^Te_j$ 。由于正交矩阵的列两两正交，那么 $e_i^T e_j = 0, i \neq j$ ， $e_i^T e_i = 1$ （因为 $e_i$ 是单位向量），所以有
$E^TE= \left[ \begin{matrix} \ e_1^Te_1 & 0 & \cdots & 0 \\ 0 & e_2^Te_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & e_m^Te_m \end{matrix} \right]$
所以， $E^TE=E^{-1}E=I$ ，即 $E^T=E^{-1}$ 。

于是，对于一个对称矩阵 $M$ ，我们可以将其表示为： $M=EDE^T$ ，其中， $E$ 是一个正交矩阵，列向量是矩阵 $M$ 的特征向量； $D$ 是一个对角矩阵，对角线上的值是矩阵 $M$ 的特征值。
这个性质很巧，正式我们在PCA里面用到的矩阵的斜对角定理。

有了这样的特征矩阵，我们可以将 $E$ 看作一个坐标系，这个坐标系有一个很好的性质，就是和我们经常看见的 $x y$ 坐标系一样，它的各个坐标系之间相互垂直。

我们最想做的事情是，对数据 $A_{m\times n}$ 进行转换，转换后它各个维度之间相互独立，相关性为0，这样可以有助于我们更清晰的分析各个维度。矩阵 $AA^T$ 的特征向量构成的坐标系 $E$ ，正好就有就有让原数据 $A$ 转化后，各个维度之间相互独立的这个神奇的特点。

将原数据 $A$ 转换到该坐标系上， $E^TA$ 。我们再来计算一下转换后矩阵的协方差系数，发现矩阵 $E^TA$ 各个坐标系之间的数据相互独立，即 $E^TA (E^TA)^T=E^TAA^TE=D$ ， $D$ 是一个对角矩阵，就是说转化后的矩阵 $E^TA$ ，各行之间的数据相关性为0。这就是我们在PCA详解里面说的主要思想，这里 $E$ 中的每一个特征向量，表示一个“主”成份。