机器学习基础（六十三）—— 奇异值分解（SVD）

最新推荐文章于 2024-07-26 23:15:18 发布

五道口纳什

最新推荐文章于 2024-07-26 23:15:18 发布

阅读量2.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/lanchunhui/article/details/51407834

版权

机器学习专栏收录该内容

121 篇文章 39 订阅

订阅专栏

0. 实际意义

一个 $m\times n$ 的 word-doc 矩阵，经 SVD 奇异值分解之后，得到 $\left(m\times k\right)\times \left(k\times n\right)$ 的两个子矩阵的乘积，这里的维度信息 $k$ ，表示的正是从全部 word 中提炼出来的 topic，提取在某种程度上含义近似于压缩，自然这里提炼出来的 topic 也是去除近义词后的结果。这也正是 LSA（latent semantic analysis）（隐语义/潜藏语义/潜在语义分析）所做的工作。

1. 基本理论

矩阵的奇异值分解首先适用于矩阵非方阵的情形。

设 $C_{m\times n}$ ， $U_{m\times m}$ ，其中 $U$ 的列为 $CC^T$ 的正交特征向量， $V_{n\times n}$ ， $V$ 的列为 $C^TC$ 的正交特征向量，再假设 $r$ 为 $C$ 的秩，则存在奇异值分解：

C = U Λ V T

$C=U\Lambda V^T$

其中 $CC^T$ 和 $C^TC$ 的特征值相同，为 $\lambda_1,\lambda_2,\ldots,\lambda_r$ 。

$\Lambda$ 为 $m\times n$ ，其中 $\Lambda_{ii}=\sqrt\lambda_i$ ，其余位置为0， $\Lambda_{ii}$ 的值按大小降序排列

$U$ 的每一列， $V$ 的每一列，均与 $\Lambda_{ii}$ 具有某种对应关系，对某些列适当地保留和舍去，可用于近似处理。当我们进行一阶近似（first-order approximation）时，可以仅保留 $U$ 的第一列， $\Lambda$ 的第一个对角线元素（也即 $\Lambda_{11}$ ）以及 $V$ 的第一列；

SVD 分解两端同时右乘 $C^T$ ，得：

C C T = U Λ 2 U T

$CC^T=U\Lambda^2U^T$
恰为对称矩阵的分解。

奇异值分解的图形表示如下：

从图中可以看到 Σ <script type="math/tex" id="MathJax-Element-30">Σ</script>虽然为M x N矩阵（M>N），但从第N+1行到M行全为零，因此可以表示成 N x N 矩阵，又由于右式为矩阵相乘，因此 U 可以表示为 M x N 矩阵，VT 可以表示为 N x N 矩阵。