潜在语义分析（LSA）相关知识

最新推荐文章于 2023-11-27 12:29:03 发布

VariableX

最新推荐文章于 2023-11-27 12:29:03 发布

阅读量710

点赞数 1

分类专栏：机器学习基础文章标签：机器学习算法

本文链接：https://blog.csdn.net/VariableX/article/details/106361481

版权

机器学习基础专栏收录该内容

29 篇文章 20 订阅

订阅专栏

文章目录

单词-文本矩阵
话题向量空间
文本在话题向量空间中的表示
从单词向量空间到话题向量空间的线性变换
潜在语义分析算法

潜在语义分析（latent semantic analysis, LSA）是一种无监督方法，主要用于文本的话题分析。其特点是通过对 单词-文本矩阵进行进行奇异值分解，从而得到 话题向量空间和 文本在话题向量空间中的表示。

单词-文本矩阵

给定 $n$ 个文本集合 $\{d_1,d_2,\ldots d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $\{w_1,w_2,\ldots,w_m\}$ 。单词-文本矩阵如下：
$\left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right]$
每个列向量 $x_{ \cdot j}$ 对应文本 j 的不同单词， $x_{i,j}$ 表示第 j 个文本中第 i 个单词 $w_i$ 的权值。权值可以是单词的在文本的出现次数，也可以是其他的数值，例如TD-IDF值：
$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{\mathrm{d}f}{\mathrm{d}f_i}\\ i=1,2,\cdots,m;\\ j=1,2,\cdots,n$
$tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数， $tf_{.j}$ 是文本 $d_j$ 中出现所有单词的频数之和，所以 $\frac{tf_{ij}}{tf_{\cdot j}}$ 可以表示单词 $w_i$ 在当前文本的出现次数的占比。一个单词在一个文本中出现的频数越高，这个单词在这个文本中的重要度就越高，即 $\frac{tf_{ij}}{tf_{\cdot j}}$ 越大；

$d f$ 是文本集合D的全部文本集， $df_i$ 是含有单词 $w_i$ 的文本数。一个单词在整个文本集合中出现的文本数越少，这个单词就越能表示其所在文本的特点，重要度就越高，即 $\log\frac{\mathrm{d}f}{\mathrm{d}f_i}$ 越大；

一个单词在一个文本的TF-IDF是两种重要度的积，表示综合重要度。

单词-文本矩阵的每个列向量对应一个文本，两个列向量之间的的余弦相似度表示对应文本之间的语义相似度。

缺点：单词向量通常是稀疏的。没有考虑到在自然语言处理中的一词多义以及多词一义，所以基于词向量的相似度计算不精确。

话题向量空间

两个文本的相似度可以体现在话题的相似度上。一个文本一般包含若干个话题，如果两个文本相似，那么这两个应该有相似的话题。

可以设想定义一种话题向量空间模型，进而可以用话题向量来表示文本。这个向量的每一个分量都对应一个话题，分量的数值大小为该话题在文本中的权值。实际上，潜在语义分析正是构建话题向量空间的方法。

给定单词-文本矩阵如下：
$X=\left[\begin{matrix}x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn}\end{matrix}\right]$
X 也可以写作： $X=[x_1 \;\; x_2 \;\; ··· \;\; x_n]$ 。

假设所有文本共含有 $k$ 个话题，每个话题由定义在单词集合W的m维向量表示，称为话题向量，即：
$t_l = \left[ \begin{matrix} &t_{1l} \\ &t_{2l} \\ &\vdots \\ &t_{ml} \\ \end{matrix} \right], l=1,2,...k$
其中， $t_{il}$ 是单词 $w_i$ 在话题 $t_l$ 的权重，权重越大，则该单词在话题中的重要程度越高。k个话题向量 $t_l$ 张成话题向量空间，维度为k。

话题向量空间 T 也可以表示为一个矩阵，称之为单词—话题矩阵 如下：
$T=\left[ \begin{matrix} &t_{11} &t_{12} &\cdots &t_{1k} \\ &t_{21} &t_{22} &\cdots &t_{2k} \\ &\vdots &\vdots & &\vdots \\ &t_{m1} &t_{12} &\cdots &t_{mk} \\ \end{matrix} \right]$
总共有k列，每个列向量 $t_l$ 对应一个话题，每一行的元素 $t_{il}$ 代表单词 $w_i$ 在话题 $t_l$ 中的权值。

文本在话题向量空间中的表示

现在考虑将文本 $d_j$ 在单词向量空间的向量投影到话题向量空间，用话题向量空间中的向量 $y_j$ 表示， $y_j$ 是个k维的列向量，表达式为：
$y_j =\left[ \begin{matrix} &y_{1j} \\ &y_{2j} \\ &\vdots \\ &y_{kj} \\ \end{matrix} \right],j=1,2,...,n$
元素 $y_{lj}$ 表示文本 $d_j$ 在话题 $t_l$ 的权重，权重越大，说明该话题的重要程度越高。

由n个文本在话题向量空间向量 $y_{j}$ 构成的矩阵，称之为话题—文本矩阵：
$Y=\left[ \begin{matrix} &y_{11} &y_{12} &\cdots &y_{1n} \\ &y_{21} &y_{22} &\cdots &y_{2n} \\ &\vdots &\vdots & &\vdots \\ &y_{k1} &y_{k2} &\cdots &y_{kn} \\ \end{matrix} \right]$
每个列向量对应一个文本，每一行对应话题 $t_l$ ，元素 $y_{lj}$ 代表文本 $d_j$ 在话题 $t_l$ 中出现的权值。也可以记作 $Y=[y_1 \;\; y_2 \;\; ··· \;\; y_n]$ 。

从单词向量空间到话题向量空间的线性变换

潜在语义分析的思想，就是单词向量空间变换到话题向量空间，通过矩阵的因子分解，将单词—文本矩阵X近似的用单词—话题矩阵 $T$ 与话题—文本矩阵 $Y$ 的乘积表示，即：
$\approx TY$
如下图所示：

在这里插入图片描述

在原始的单词向量空间中，两个文本 $d_i$ 与 $d_j$ 的相似度可以由对应的向量的内积表示，即 $d_i \cdot d_j$ 。经过潜在语义分析之后，在话题向量空间中，两个文本 $d_1$ 与 $d_2$ 的相似度可以由对应的向量的内积即 $y_i \cdot y_j$ 表示。简单来说就是从文本单词的相似度的计算，转换为文本主题的相似度的计算。

潜在语义分析算法

矩阵奇异值(SVD)分解算法

给定文本集合 $D=\{d_1, d_2,\cdots,d_n\}$ ，单词集合 $W=\{w_1,w_2,\cdots,w_m\}$ ，则单词-文本矩阵 $X_{m\times n}$ ：
$X=\left[ \begin{matrix} &x_{11} &x_{12} &\cdots &x_{1n} \\ &x_{21} &x_{22} &\cdots &x_{2n} \\ &\vdots &\vdots & &\vdots\\ &x_{m1} &x_{m2} &\cdots &x_{mn} \\ \end{matrix} \right]$
潜在语义分析根据确定的话题个数k对单词-文本矩阵进行截断奇异值分解：
$X\thickapprox U_k{\Sigma_k}V_k^\mathrm{T} \bf =\left[ \begin{matrix} u_1 &u_2 &\cdots &u_k \end{matrix} \right] \left[ \begin{matrix} \sigma_1 &0 &0 &0\\ 0 &\sigma_2 &0 &0 \\ 0 &0 &\ddots &0\\ 0 &0 &0 &\sigma_k \end{matrix} \right] \left[ \begin{matrix} v_1^\mathrm{T}\\ v_2^\mathrm{T}\\ \vdots\\ v_k^\mathrm{T} \end{matrix} \right]$
这中间 $k\le n \le m$ 这里假设了文档数量要比单词数量少。

其中：

（1） $U_k$ 是 $m\times k$ 矩阵，由X的前 $k$ 个相互正交的左奇异向量组成， $U_k$ 每一列 $u_l$ 表示一个话题， $k$ 个话题张成一个子空间，称为话题向量空间：
$U_k=\left[\begin{matrix}u_1&u_2&\cdots&u_k\end{matrix}\right]$
（2） $\Sigma_k$ 是 $k$ 阶方阵，由X的前 $k$ 个最大奇异值组成；

（3） $V_k$ 是 $n\times k$ 矩阵，由X的前 $k$ 个相互正交的右奇异向量组成。

${\Sigma_k}V_k^\mathrm{T}$ 两个矩阵的乘积，则对应了话题-文本矩阵(文本在话题空间的向量表示)。所以，矩阵 $X$ 的第 $j$ 列向量 $x_j$ 满足：
$\begin{aligned} x_j&\thickapprox U_k(\Sigma_k V_k^\mathrm{T})_j\\ &= \left[ \begin{matrix} u_1& u_2& \cdots& u_k \end{matrix} \right] \left[ \begin{matrix} \sigma_1v_{j1}\\ \sigma_2v_{j2}\\ \vdots\\ \sigma_kv_{jk} \end{matrix} \right] \\ &=\sum_{l=1}^k\sigma_lv_{jl}u_l,j=1,2,\cdots,n \end{aligned}$
式中： $(\Sigma_k V_k^\mathrm{T})_j$ 是矩阵 $(\Sigma_k V_k^\mathrm{T})$ 的第 $j$ 列向量。矩阵 $(\Sigma_k V_k^\mathrm{T})_j$ 的每一个列向量：
$\left[ \begin{matrix} \sigma_1v_{11}\\ \sigma_2v_{12}\\ \vdots\\ \sigma_kv_{1k} \end{matrix} \right] , \left[ \begin{matrix} \sigma_1v_{21}\\ \sigma_2v_{22}\\ \vdots\\ \sigma_kv_{2k} \end{matrix} \right], \ldots, \left[ \begin{matrix} \sigma_1v_{n1}\\ \sigma_2v_{n2}\\ \vdots\\ \sigma_kv_{nk} \end{matrix} \right]$
是n个文本在话题向量空间的表示。

所以，通过矩阵的SVD分解进行潜在语义分析：
$X\approx U_k{\Sigma_k}V_k^\mathrm{T} =U_k({\Sigma_k}V_k^\mathrm{T})$
从而得到了话题空间 $U_k$ ，以及文本在话题空间的表示 $({\Sigma_k}V_k^\mathrm{T})$ 。

非负矩阵(NMF)分解算法

除了可以使用SVD分解，还可以使用非负矩阵分解算法。

基本思想

对单词—文本矩阵进行非负矩阵分解，将其左矩阵作为话题向量空间，将其右矩阵作为文本在话题向量空间的表示。

设单词—文本矩阵是 $m\times n$ 的非负矩阵 $X$ ，文本集合包含 $k$ 个话题，对 $X$ 进行非负矩阵分解。即求 $m\times k$ 的非负矩阵和 $k\times n$ 的非负矩阵满足
$X\thickapprox WH$
其中： $W=\left[\begin{matrix}w_1& w_2& \cdots& w_k\end{matrix}\right]$ 表示话题向量空间， $w_1, w_2, \cdots, w_k$ 表示文本集合的 $k$ 个话题。
$H=\left[\begin{matrix}h_1& h_2& \cdots& h_k\end{matrix}\right]$ 表示文本在话题向量空间的表示， $h_1, h_2, \cdots, h_k$ 表示文本集合的 $n$ 个文本。

损失函数

使用迭代的方法进行学习，则可以使用的损失函数有：

（1）平方损失

目标函数：
$\min\limits_{W,H}||X - WH||^2 \\ s.t. \quad W,H \ge 0$

（2）散度损失函数

首先看看散度的定义：
$\sum_{i,j} \left(a_{ij}\log\frac{a_{ij}}{b_{ij}} - a_{ij} + b_{ij}\right)$
称为非负矩阵A和B的散度损失函数。其下界时０，当且仅当A＝Ｂ时达到下届。

当 $\sum_{ij}a_{ij} = \sum_{ij}b_{ij}=1$ 时，散度损失函数退化为KL散度或相对熵。

所以右散度损失函数为：
$\min \limits_{W,H} D\left(X||WH\right) \\ s.t. \quad W,H \ge 0$

迭代学习算法

（1）平方损失函数更新法则

$J(W,H)=\frac{1}{2}\|X-WH\|^2=\frac{1}{2}\sum_{i,j}[X_{ij}-(WH)_{ij}]^2$

采用梯度下降法求解，这里用到了矩阵求导
$\begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}}&=-\sum_j[X_{ij}-(WH)_{ij}]H_{lj}=-[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ \frac{\partial J(W,H)}{\partial H_{lj}}&=-[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}] \end{aligned}$
根据更新规则有
$W_{il}=W_{il}+\lambda_{il}[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ H_{lj}=H_{lj}+\mu_{lj}[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}]\\ \lambda_{il}=\frac{W_{il}}{(WHH^\mathrm{T})_{il}}\\ \mu_{lj}=\frac{H_{lj}}{(W^\mathrm{T}WH)_{lj}}$
得到最终的乘法更新法则：
$H_{lj}\leftarrow H_{lj}\frac{(W^\mathrm{T}X)_{lj}}{(W^\mathrm{T}WH)_{lj}}\\ W_{il}\leftarrow W_{il}\frac{(XH^\mathrm{T})_{il}}{(WHH^\mathrm{T})_{il}}$

（2）散度损失函数的更新法则

散度乘法更新法则如下：
$H_{lj}\leftarrow H_{lj}\frac{\sum\limits_i[W_{il}X_{ij}/(WH)_{ij}]}{\sum\limits_iW_{il}}\\ W_{il}\leftarrow W_{il}\frac{\sum\limits_j[H_{lj}X_{ij}/(WH)_{ij}]}{\sum\limits_jH_{lj}}$

算法实现

具体算法如下：

输入：单词-文本矩阵 $X\ge 0$ ，文本集合的话题个数 $k$ ，最大迭代次数 $t$ ；
输出：话题矩阵 $W$ ，文本表示矩阵 $H$

初始化
$W\ge 0$ ，并对 $W$ 的每一列数据归一化
$H\ge 0$
迭代
对迭代次数从 $1$ 到 $t$ 执行下列步骤：
a. 更新 $W$ 的元素，每次迭代对 $W$ 的列向量归一化，使基向量为单位向量。
b. 更新 $H$ 的元素。