潜在语义分析和概率潜在语义分析

bulingg

于 2023-08-06 09:46:00 发布

阅读量243

点赞数

分类专栏：机器学习文章标签：线性代数机器学习人工智能

本文链接：https://blog.csdn.net/bulling/article/details/132116614

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

潜在语义分析和概率潜在语义分析

一、潜在语义分析（LSA）
二、概率潜在语义分析（PLSA）

一、潜在语义分析（LSA）

无监督算法，用于文本的话题分析，特点是通过矩阵分解发现文本与单词之间的基于话题的语义分析。

由来：文本信息处理中，传统方法以单词向量表示文本的语义内容，以单词向量空间中的度量表示文本之间的语义相似度。
潜在语义分析旨在解决该方法不能准确表示语义问题，试图从大量文本中发现潜在的话题，以话题向量表示文本的语义内容，以话题向量空间中的度量表示文本语义相似度

1. 单词向量空间

给定一个文本，用一个向量表示该文本的“语义”，其中向量的每一维对应一个单词，数值为单词在文本中出现的频数或权重

基本假设：

文本中的所有单词出现情况表示了文本的语义内容
文本集合中每一个文本都可以表示为一个向量，存在一个向量空间
向量空间的度量，如内积或标准化内积表示文本之间的语义相似度

给定含有 $n$ 个文本的集合 $\mathcal{D}=\{d_{1},\cdots,d_{n}\}$ ，以及所有文章中出现的 $m$ 个单词的集合 $\mathcal{W}=\{w_{1},\cdots,w_{m}\}$ 。将单词在文本中出现的数据用一个单词-文本矩阵表示
$X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&\vdots&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn} \end{bmatrix}=\begin{bmatrix}\boldsymbol{x}_{1},\boldsymbol{x}_{2},\cdots,\boldsymbol{x}_{n} \end{bmatrix}$
其中， $x_{ij}$ 表示单词 $w_{i}$ 在文本 $d_{j}$ 中出现的频数或权值。单词很多，且每个文本中单词种类较少， $X$ 为稀疏矩阵。
权值可以由TF-IDF（单词频率-逆文本频率）表示：
$TF-IDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}log\frac{df}{df_{i}}$
其中， $tf_{ij}$ 表示单词 $w_{i}$ 在文本 $d_{j}$ 中出现的频数， $tf_{\cdot j}$ 表示文本 $d_{j}$ 中出现的所有单词的频数之和， $df_{i}$ 表示含有单词 $w_{i}$ 的文本数， $df$ 表示文本集合 $D$ 的全部文本数
1）一个单词在一个文本中出现的频数越高，该单词在文本中的重要度就越高
2）一个单词在整个文本集合中出现的文本数越少，这个单词就越能表示其所在文本的特点，重要度就越高

文本语义相似度可由两个单词向量的内积或余弦表示 $\boldsymbol{x}_{i}\cdot \boldsymbol{x}_{j} , \frac{\boldsymbol{x}_{i}\cdot \boldsymbol{x}_{j}}{\Vert\boldsymbol{x}_{i}\Vert\cdot \Vert\boldsymbol{x}_{j}\Vert}$

优点：模型简单，计算效率高
缺点：内积相似度不能准确表示两个文本的相似度。自然语言具有一词多义，多词同义

2. 话题向量空间

话题是指文本所讨论的内容或主题，可由若干个语义相关的单词表示。同义词可表示一个话题，多义词可表示不同的话题

给定一个文本，用话题空间的一个向量表示文本，向量的每一个分量对应一个话题。
话题的个数通常远小于单词的个数

1. 话题向量空间
给定含有 $n$ 个文本的集合 $\mathcal{D}=\{d_{1},\cdots,d_{n}\}$ ，以及所有文章中出现的 $m$ 个单词的集合 $\mathcal{W}=\{w_{1},\cdots,w_{m}\}$ 。将单词在文本中出现的数据用一个单词-文本矩阵表示
$X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\x_{21}&x_{22}&\cdots&x_{2n}\\\vdots&\vdots&\vdots&\vdots\\x_{m1}&x_{m2}&\cdots&x_{mn} \end{bmatrix}=\begin{bmatrix}\boldsymbol{x}_{1},\boldsymbol{x}_{2},\cdots,\boldsymbol{x}_{n} \end{bmatrix}$
假设所有文本共含有 $k$ 个话题，每个话题由一个定义在单词集合 $\mathcal{W}$ 上的 $m$ 维向量表示，称为话题向量，即
$\boldsymbol{t}_{l}=\begin{bmatrix}t_{1l}\\t_{2l}\\\vdots\\t_{ml}\end{bmatrix},l=1,2,\cdots,k$
其中， $t_{il}$ 表示单词 $w_{i}$ 在话题 $t_{l}$ 的权值， $i=1,2,\cdots,m$ ， $k$ 个话题向量构成一个话题空间 $T$ ，是单词向量空间 $X$ 的一个子空间。 $T$ 称为单词-话题空间，为
$T=\begin{bmatrix} t_{11}&t_{12}&\cdots&t_{1k}\\t_{21}&t_{22}&\cdots&t_{2k}\\\vdots&\vdots&\vdots&\vdots\\t_{m1}&t_{m2}&\cdots&t_{mk} \end{bmatrix}=\begin{bmatrix}\boldsymbol{t}_{1}&\boldsymbol{t}_{2}&\cdots &\boldsymbol{t}_{k}\end{bmatrix}$

2. 文本在话题向量空间的表示
将单词向量空间 $X$ 中的向量 $\boldsymbol{x}_{j}$ 映射到话题向量空间 $T$ 中，得到向量 $\boldsymbol{y}_{j}$ :
$\boldsymbol{y}_{j}=\begin{bmatrix}y_{1j}\\y_{2j}\\\vdots\\y_{kj}\end{bmatrix}$
其中， $y_{lj}$ 表示文本 $d_{j}$ 中话题 $\boldsymbol{t}_{l}$ 的权值

矩阵 $Y$ 表示话题在文本中出现的情况，称为话题-文本矩阵
$Y=\begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1n}\\y_{21}&y_{22}&\cdots&y_{2n}\\\vdots&\vdots&\vdots&\vdots\\y_{k1}&y_{k2}&\cdots&y_{kn} \end{bmatrix}=\begin{bmatrix}\boldsymbol{y}_{1}&\boldsymbol{y}_{2}&\cdots &\boldsymbol{y}_{k}\end{bmatrix}$

3.从单词向量空间到话题向量空间的线性变换
潜在语义分析：单词-文本矩阵 $X$ 可以由单词-话题矩阵 $T$ 和话题-文本矩阵 $Y$ 表示
$X\approx TY$
即 $\boldsymbol{x}_{j}\approx y_{1j}\boldsymbol{t}_{1}+y_{2j}\boldsymbol{t}_{2}+\cdots+y_{kj}\boldsymbol{t}_{k}$

文本语义相似度可由 $\boldsymbol{y}_{i}\cdot \boldsymbol{y}_{j}$ 表示

3. 潜在语义分析算法

3.1 矩阵奇异值分解

将单词-文本矩阵 $X$ 进行截断奇异值分解：
$X\approx U_{k}\Sigma_{K} V_{k}^{T}=[\boldsymbol{u}_{1},\boldsymbol{u}_{2},\cdots,\boldsymbol{u}_{k}]diag(\sigma_{1},\sigma_{2},\cdots,\sigma_{k}) \begin{bmatrix}\boldsymbol{v}_{1}^{T}\\\boldsymbol{v}_{2}^{T}\\\vdots\\\boldsymbol{v}_{k}^{T}\end{bmatrix}$
则

$U_{k}=[\boldsymbol{u}_{1},\boldsymbol{u}_{2},\cdots,\boldsymbol{u}_{k}]$ 为单词-话题矩阵，同时构成话题向量空间
$\Sigma_{K} V_{k}^{T}=\begin{bmatrix} \sigma_{1}v_{11}&\sigma_{1}v_{21}&\cdots&\sigma_{1}v_{n1}\\ \sigma_{2}v_{12}&\sigma_{2}v_{22}&\cdots&\sigma_{2}v_{n2}\\ \cdots&\cdots&\cdots&\cdots\\ \sigma_{k}v_{1k}&\sigma_{k}v_{2k}&\cdots&\sigma_{k}v_{nk} \end{bmatrix}$ 表示话题文本矩阵

3.2 非负矩阵分解

还可以采用非负矩阵分解对 $X$ 进行拆分：
$X\approx WH$
$X\in R^{m\times n},W\in R^{m \times k},H\in R^{k \times n}$ ，且 $W$ 表示话题空间， $H$ 表示话题文本矩阵，即文本在话题向量空间中的表示，可表示为如下优化问题：
$\underset{W,H}{min}\Vert X-WH\Vert^{2}\\ s.t. W,H\ge 0$
非负矩阵分解采用迭代算法进行求解：乘法更新规则的迭代算法，交替地对 $W, H$ 进行更新

二、概率潜在语义分析（PLSA）

是一种利用概率生成模型对文本集合进行话题分析的无监督方法。
特点，用隐变量表示话题，整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程

基本想法：对文本进行概率潜在语义分析，可以发现每个文本的话题，以及每个话题的单词。话题是不能从数据中直接观察到的，是潜在的

学习策略是观测数据的极大似然估计，学习算法是EM算法
给定单词-文本矩阵

2.1 生成模型

文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程：假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。单词变量 $w$ 与文本变量 $d$ 是观测变量，话题 $z$ 是隐变量。

生成模型定义如下：
$P(w,d)=\Pi_{(w,d)}P(w,d)^{n(w,d)},\\ P(w,d)=P(d)P(w\vert d)=P(d)\sum_{z}P(w,z\vert d) =P(d)\sum_{z}P(z\vert d)P(w\vert z)$
生成模型假设在话题 $z$ 给定的条件下，单词 $w$ 和文本 $d$ 是条件独立的，有
$P(w,z\vert d)=P(w|z,d)P(z|d)=P(z\vert d)P(w\vert z)$
其中， $n (w, d)$ 表示 $(w, d)$ 出现次数， $P (w, d)$ 表示每个文本对出现的概率