机器学习中的数学——特征分解

最新推荐文章于 2023-12-14 09:08:44 发布

von Neumann

最新推荐文章于 2023-12-14 09:08:44 发布

阅读量1.1w

点赞数 4

分类专栏：机器学习中的数学文章标签：机器学习深度学习数学线性代数特征值分解

本文链接：https://blog.csdn.net/hy592070616/article/details/120575623

版权

机器学习中的数学专栏收录该内容

112 篇文章 875 订阅

订阅专栏

许多数学对象可以通过将它们分解成多个组成部分或者找到它们的一些属性而更好地理解，这些属性是通用的，而不是由我们选择表示它们的方式产生的。例如，整数可以分解为质因数。我们可以用十进制或二进制等不同方式表示整数12，但是12=2×2×3永远是对的。从这个表示中我们可以获得一些有用的信息，比如12不能被5整除，或者12的倍数可以被3整除。

正如我们可以通过分解质因数来发现整数的一些内在性质，我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。特征分解是使用最广的矩阵分解之一，即我们将矩阵分解成一组特征向量和特征值。

方阵 $A$ 的特征向量是指与 $A$ 相乘后相当于对该向量进行缩放的非零向量 $v$ ：
$Av=\lambda v$

标量 $\lambda$ 被称为这个特征向量对应的特征值。类似地，我们也可以定义左特征向量 $v^TA=\lambda v$ ，但是通常我们更关注右特征向量

如果 $v$ 是 $A$ 的特征向量，那么任何缩放后的向量 $sv(s\in R, s\neq 0)$ 也是 $A$ 的特征向量。此外， $s v$ 和 $v$ 有相同的特征值。基于这个原因，通常我们只考虑单位特征向量。

假设矩阵 $A$ 有 $n$ 个线性无关的特征向量 $\{v^{(1)}, v^{(2)},\cdots, v^{(n)}\}$ ，对应着特征值 $\{\lambda_i, \lambda_2, \cdots, \lambda_n\}$ 。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量：
$V=[v^{(1)}, v^{(2)},\cdots, v^{(n)}]$

类似地，我们也可以将特征值连接成一个向量：
$\lambda=[\lambda_i, \lambda_2, \cdots, \lambda_n]^T$

此时， $A$ 的特征分解可以记作：
$A=V\text{diag}(\lambda)V^{-1}$

我们已经看到了构建具有特定特征值和特征向量的矩阵，能够使我们在目标方向上延伸空间。然而，我们也常常希望将矩阵分解成特征值和特征向量。这样可以帮助我们分析矩阵的特定性质，就像质因数分解有助于我们理解整数。

不是每一个矩阵都可以分解成特征值和特征向量。在某些情况下，特征分解存在，但是会涉及复数而非实数。幸运的是，我们通常只需要分解一类有简单分解的矩阵。具体来讲，每个实对称矩阵都可以分解成实特征向量和实特征值：
$A=Q\Lambda Q^T$

其中 $Q$ 是 $A$ 的特征向量组成的正交矩阵， $\Lambda$ 是对角矩阵。特征值 $\Lambda_{i, i}$ 对应的特征向量是矩阵 $Q$ 的第 $i$ 列，记作 $Q_{:, i}$ 。因为 $Q$ 是正交矩阵，我们可以将 $A$ 看作沿方向 $v^{(i)}$ 延展 $\lambda_i$ 倍的空间。
特征变换
虽然任意一个实对称矩阵 $A$ 都有特征分解，但是特征分解可能并不唯一。如果两个或多个特征向量拥有相同的特征值，那么在由这些特征向量产生的生成子空间中，任意一组正交向量都是该特征值对应的特征向量。因此，我们可以等价地从这些特征向量中构成 $Q$ 作为替代。按照惯例，我们通常按降序排列 $\Lambda$ 的元素。在该约定下，特征分解唯一当且仅当所有的特征值都是唯一的。

矩阵的特征分解给了我们很多关于矩阵的有用信息。矩阵是奇异的当且仅当含有零特征值。实对称矩阵的特征分解也可以用于优化二次方程 $f(x)=x^TAx$ ，其中限制 $x||_2=1$ 。当 $x$ 等于 $A$ 的某个特征向量时， $f$ 将返回对应的特征值。在限制条件下，函数∫的最大值是最大特征值，最小值是最小特征值。