特征值和特征向量及其在机器学习中的应用

最新推荐文章于 2023-12-31 01:09:28 发布

天莓烦恼

最新推荐文章于 2023-12-31 01:09:28 发布

阅读量2.7k

点赞数

分类专栏：机器学习数学基础文章标签：线性代数矩阵机器学习

本文链接：https://blog.csdn.net/clearlovetim/article/details/122276279

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

数学基础

4 篇文章 0 订阅

订阅专栏

特征值和特征向量

特征值和特征向量直观理解的参考视频：P14 10 - 特征向量与特征值

矩阵作用在向量上

矩阵作用在向量上，很大可能会改变向量原坐标系下的位置，也就是该向量在空间中进行了一次空间的变化。可视化在视频中有着非常好的体现。
$\begin{aligned} &A = \left[ \begin{matrix} 3 & 1\\ 0 & 1\end{matrix}\right]\\ &x_1 = \left[ \begin{matrix}1 \\ 0 \end{matrix}\right], Ax_1 = \left[ \begin{matrix}3 \\ 0 \end{matrix}\right]\\ &x_2 = \left[ \begin{matrix}1 \\ 1 \end{matrix}\right], Ax_1 = \left[ \begin{matrix}4 \\ 1 \end{matrix}\right]\\ \end{aligned}$

那么对于原坐标系下的所有向量来说，他们都在空间中进行了一次空间变化，有伸缩的（x1，只是扩大了3倍）、有旋转的、有二者兼有的（x2）。

特征值和特征向量

那么，我们对只进行了伸缩的，也就是留在了自己的张量空间内的向量称为特征向量，其伸缩因子称为特征值。需要注意的是：在一个矩阵变化下，可能存在多个特征向量或者没有（进行了维度内全部向量旋转变化的矩阵）。

求解特征值和特征向量

由于特征向量仍然留在自己的张量空间内，只是进行了伸缩，那么对于特征值和特征向量来说，以下式子成立（注意，A必须为方阵，因为设A是n*m维的矩阵，v必须是m*1维，Av是n*1维，v是m*1维，二者相等，因此n=m，所以A是方阵）
$A\vec v = \lambda \vec v$
要求解特征值和特征向量，需要先变换成如下的式子
$(A-\lambda I)\vec v = \vec 0（转成\lambda I是为了两边都变成矩阵乘以向量的形式，才能进行相减）$
如果向量是一个零向量是没有任何研究意义的，因此我们主要研究的是对于非零向量这条式子成立。当且仅当
$|A-\lambda I| = 0$
也就是这个矩阵有空间压缩作用的时候（可视化在开头推荐的视频中），对于非零向量才有
$(A-\lambda I)\vec v = \vec 0$
成立。下面给出一个简单证明

证明

$\begin{aligned} &假设 A = \left[ \begin{matrix} a_{11} & a_{12}\\ a_{21} & a_{22}\end{matrix}\right]，x = \left[ \begin{matrix} x_1 \\ x_2\end{matrix}\right], b = \left[ \begin{matrix} b_1 \\ b_2\end{matrix}\right]\\ &求Ax = b 有\\ &\begin{cases} a_{11}x_1 + a_{12}x_2 = b_1\\ a_{21}x_1 + a_{22}x_2 = b_2 \end{cases}\\ & 有\\ &\begin{cases} x_1(a_{11}a_{22} - a_{12}a_{21}) = b_1a_{22} - b_2a_{12}\\ \space \\ x_2(a_{11}a_{22} - a_{12}a_{21}) = b_2a_{11} - b_1a_{21}\\ \end{cases}\\ \space \\ & 当b_1, b_2都为0，且x_1, x_2不全为0时，只能是a_{11}a_{22} - a_{12}a_{21} = 0\\ \space \\ & 而a_{11}a_{22} - a_{12}a_{21} 则是A的行列式 \end{aligned}$

举例

$\begin{aligned} &求A = \left[ \begin{matrix} 3 & 1\\ 0 & 2\end{matrix}\right]的特征值和特征向量 \space \\ &解：\\ & 设特征值是\lambda，构造一个矩阵(A - \lambda I)\\ \space \\ &是为\left[ \begin{matrix} 3-\lambda & 1\\ 0 & 2-\lambda\end{matrix}\right]\\ \space \\ &即det(A-\lambda I) = (3-\lambda)(2-\lambda) = 0\\ \space \\ &解得\lambda = 3 或者 \lambda = 2\\ \space \\ &将\lambda = 3 代入 (A-\lambda I)\vec v = \vec 0\\ \space \\ &即求解\left[ \begin{matrix} 3-3 & 1 & 0\\ 0 & 2-3 & 0\end{matrix}\right] = \left[ \begin{matrix} 0 & 1 & 0\\ 0 & -1 & 0\end{matrix}\right]\\ \space \\ & 解得\left[ \begin{matrix} x_1 \\ x_2 \end{matrix}\right] = \left[ \begin{matrix} x_1 \\ 0 \end{matrix}\right] = \left[ \begin{matrix} 1 \\ 0 \end{matrix}\right]x_1, \therefore \vec v_1 = \left[ \begin{matrix} 1 \\ 0 \end{matrix}\right]\\ \space \\ & 同理，将\lambda = 2代入解得\vec v_2 = \left[ \begin{matrix} -1 \\ 1 \end{matrix}\right]（这里还可以选择x_1=1） \end{aligned}$

特征值和特征向量的作用和意义

对于一个绕着某个向量只进行旋转的空间变化来说，特征向量就是那个旋转轴，特征值必须为1。视频4’17’'处有可视化展现。
在机器学习中就是SVD奇异值分解的应用，具体可以看基变换、特征分解和SVD分解用于对数据进行降维，提取有用的特征。直观理解就是即使空间变换了，但这些特征向量还是维持在了自己原来的张量空间上，没有随着空间变换而变换，只是变了伸缩量。