隐语义索引（LSI）：词项与文档降维后的向量表示

本文链接：https://blog.csdn.net/Hyacintheatre/article/details/92072306

隐语义索引（LSI）：词项与文档降维后的向量表示

给定 $M\times N$ 的词项文档矩阵 $C$ ，对其进行奇异值分解并把 $\Sigma$ 中对角线上 $r - k$ 个最小奇异值置为 $0$ 后得到了在F-范数意义下最优的¹秩为 $k$ 的低秩逼近 $C_{k}$ :
$C_{k}=U\Sigma _{k}V^{T}$
在这里插入图片描述
把后 $k$ 位奇异值置为零后， $U^{T}$ 的后 $k$ 列和 $V^{T}$ 的后 $k$ 行就可视为0，因为在进行矩阵乘法时它们会与零相乘，取值多少不影响计算。这样用 $V^{T}$ 的列向量来表示文档向量，向量的维数由 $M$ 减少到 $k$ 。

一个问题是当我们计算查询query与文档document的内积相似度时为什么文档向量可以由 $V_{k}^{T}$ 的列向量来表示？ （查询可视为一个文档，在参考文献²中叫做伪文档）
先来看一个虚构的例子，词项文档矩阵用 $C$ 表示

在这里插入图片描述
$C^{T}C$ 代表什么呢？它是一个方阵，每行和每列都对应 $N$ 篇文档中的一篇， $C^{T}C$ 的 $(i, j)$ 元代表了第 $i$ 篇文档和第 $j$ 篇文档的相似度（内积）。由奇异值分解的证明我们可以得到 $C^{T}C=V\Sigma^2V^T$ ， $V$ 的每一列是矩阵 $C^{T}C$ 的正交特征向量。我们可以把 $C^{T}C$ 的 $(i, j)$ 元看成是由矩阵 $V\Sigma$ 的第 $i, j$ 行做内积得到的，即上图中 $\Sigma V^T$ 的第 $i, j$ 列做内积得到的。自然我们就可以把 $\Sigma V^T$ 作为文档向量的低维表示。要注意使用 $V^T$ 作为文档向量和使用 $\Sigma V^T$ 其实相差不大，对比不同文档对之间相似度的结果是一样的。因为 $\Sigma$ 是对角阵， $\Sigma V^T$ 相当于对 $V^T$ 的正交向量空间的基向量作了伸缩变换，两种方法计算出的文档对之间的内积只相差固定倍数²。一般LSI方法都是用 $V^T$ 的列向量作为文档向量降维后的向量表示。