topic model (LSA、PLSA、LDA)

最新推荐文章于 2023-06-15 02:34:16 发布

冰鋒

最新推荐文章于 2023-06-15 02:34:16 发布

阅读量6.8k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/lmm6895071/article/details/74999129

版权

机器学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

Topic模型

概要：

LFM（依赖于矩阵分解）
LSA(LSI)（SVD分解）
PLSI（EM算法优化，频率学派，参数未知但固定）
LDA（在PLSA基础上加上贝叶斯框架， $\alpha$ , $\beta$ ~dirichlet分布,分别作为主题-文档和词-主题的先验分布；贝叶斯学派的特点是参数是随机变化的，但是服从某个分布，不断的学习新的知识，形成后验）

介绍：

LFM、LSI、PLSI、LDA都是隐含语义分析技术，是同一类概念；在本质上是相通的，都是找出潜在的主题或特征。这些技术首先在文本挖掘领域中被提出来，近些年也被不断应用到其他领域中，并得到了不错的应用效果。
在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不同类别/主题，这些主题/类别可以理解为用户的兴趣。对文本信息进行隐含主题发掘以提取必要特征，譬如LDA获得主题分布之后，可以实现对文档的降维。在论文推荐领域，次LDA+PMF模型实现协同主题回归模型（CTR)。

LFM （隐语义模型）

例子：
将用户评分矩阵（混淆矩阵）分解R=P* Q
P矩阵代表了 user-class
Q矩阵代表了class-item
class:根据自动聚类算法获得几个类标签；
P、Q中的参数通过模型学习得到：
最后计算平方损失函数，利用随机梯度下降法，使得损失值最小；
矩阵分解

参考文献

LSA模型

Latent Semantic Analysis (Latent Semantic Indexing)

背景
传统的信息检索中：将单词作为特征，构造特征向量；计算查询单词与文档间的相似度；但是没有考虑到语义、同义词等相关信息；在基于单词的检索方法中，同义词会降低检索算法的召回率(Recall)，而多义词的存在会降低检索系统的准确率(Precision)。
我们希望找到一种模型，能够捕获到单词之间的相关性。如果两个单词之间有很强的相关性，那么当一个单词出现时，往往意味着另一个单词也应该出现(同义词)；反之，如果查询语句或者文档中的某个单词和其他单词的相关性都不大，那么这个词很可能表示的是另外一个意思(比如在讨论互联网的文章中，Apple 更可能指的是Apple公司，而不是水果) 。
$LSA(LSI)使用SVD$ 来对单词-文档矩阵进行分解。 $SVD$ 可以看作是从单词-文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档，可能在语义空间内比较相似。

$SVD$ ，亦即奇异值分解，一个 $t*d$ 维的(单词-文档矩阵) $X$ ，可以分解为:

X = T * S * D T

$X=T*S*D^T$ 其中

T $T$ 为

t∗m $t*m$ 维矩阵，

T $T$ 中的每一列称为左奇异向量(left singular vector)，

S $S$ 为

m∗m $m*m$ 维对角矩阵，每个值称为奇异值(singular value)，

D $D$ 为

d∗m $d*m$ 维矩阵,

D $D$ 中的每一列称为右奇异向量。在对单词文档矩阵

X $X$ 做

SVD $SVD$ 分解之后，我们只保存

S $S$ 中最大的

K $K$ 个奇异值，得到

D′ $D^{'}$ 、

T′ $T'$ 、

S′ $S'$ ；则形成了一个新的

t∗d $t*d$ 矩阵：

X' = T' * S' * D' T

$X'=T^{'}*S'*D^{'T}$

还原后的X’与X差别很大，这是因为我们认为之前X存在很大的噪音，X’是对X处理过同义词和多义词后的结果。

在查询时，对与每个给定的查询q，我们根据这个查询中包含的单词( $X_q$ )构造一个伪文档： $D_q=X_qTS^{-1}$ ，然后该伪文档和 $D'$ 中的每一行计算相似度(余弦相似度)来得到和给定查询最相似的文档。

参考文献

下面介绍主题模型，PLSA，LDA；
这里需要介绍一部分基础知识：共轭分布，频率学派，贝叶斯学派；
频率学派思想： 参数未知，但是固定，可以通过样本，计算最大似然估计获得；
贝叶斯学派思想：参数未知，是个随机变量，但是服从某个分布；参数服从某个先验分布，然后我们通过现有数据修正模型，获得后验分布；
先验知识+数据知识 ———>后验分布；
共轭分布：先验分布的形式和后验分布的形式一样；
比如：先验是Beta分布，数据分布是伯努利分布（0-1分布），那么后验分布仍然是Beta分布；
Dirichlet分布+多项式分布=Dirichlet分布

PLSA模型

首先，回顾一元模型，然后引出贝叶斯学派的一元模型；

如图示：
一元模型中，不存在潜在主题，我们产生word的过程，相当于投骰子（V面）；那么整个文档集的分布是：(文档直接独立，word之间独立)

$p (W) = \prod d D \prod i N p (w i) = \prod d D \prod v V p (w v) c v$ $p(W)=\prod_d^D \prod_i^N p(w_i)=\prod_d^D \prod_v^V p(w_v)^{c_v}$
然后通过最大似然方法获得参数， $\hat{p(w_i)}=\frac{c_i}{C}$ , $C$ 是总的頻数；

混合一元模型：
这里，我们假定，一篇文档有一个主题z，因此，

$p (W, z | d) = p (z | d) \prod i N p (w i | z) p (W | d) = \sum z p (z | d) \prod i N p (w i | z)$ $p(W,z|d)=p(z|d)\prod_i^Np(w_i|z)\\ p(W|d)=\sum_z p(z|d)\prod_i^Np(w_i| z)$

以上频率学派思想，现在，利用贝叶斯学派思想，重新思考模型：
现在有一个坛子，里面有无穷多个骰子（V面）;现在，我们首先得抽取一个骰子，然后才能进行计算；我们假定选取过程是服从Dirichlet分布的（先验)，因为我们知道，投骰子时，获得word的頻数是服从多项式分布的；这样后验概率也是Dirichlet分布；
这里先验参数是 $\theta$ ,那么

$p (W, θ) = p (θ) p (W | θ) p (W) = \int p (θ) p (W | θ) d θ = \int p (θ) \prod p (w i | θ) d θ$ $p(W,\theta)= p(\theta)p(W|\theta) \\ p(W)=\int p(\theta)p(W|\theta)d\theta = \int p(\theta)\prod p(w_i|\theta)d\theta$

我们回顾了基础知识；现在我们来分析一下PLSA模型，概率图模型如图C所示；可以看到，每一篇文档含有多个主题；；
现在，我们生成文档的过程是：我们投骰子（K面，代表文档-主题概率）获得主题z，然后寻找到主题为z的那个主题-word骰子，然后投骰子获得word;
即：

p (w i | d m) = \sum z p (w i | z) p (z | d m) p (W | d m) = \prod i N \sum z p (w i | z) p (z | d m) = \prod i N \sum z θ w i, z ϕ d m

$p(w_i|d_m)=\sum_z p(w_i|z)p(z|d_m) \\ p(W|d_m)=\prod_i^N \sum_z p(w_i|z)p(z|d_m)=\prod_i^N\sum_z \theta_{w_i,z}\phi_{d_m}$

这里可以使用EM算法，最大似然方法进行模型估计；

LDA模型

PLSA 模型本质上是频率学派思想，我们现在利用贝叶斯思想进行考虑；
引入Dirichlet先验， $\alpha,\beta$ 是Dirichlet分布的参数；
这样，先根据先验获得一个主题-文档分布的参数，然后从多项式分布得到一个主题，即 $\alpha \thicksim\theta_m \thicksim z_{m,n}$ ；
同时从 $\beta$ 先验中，获得多项式分布，然后根据具体主题获得word,即： $\beta \thicksim \phi_k \thicksim w_{m,n}|k=z_{m,n}$

数据知识仍然是多项分布（词频）；
这样的话，可以得到参数的后验概率： $Dir(\theta_m|n_m+\alpha)$
所以topic的后验概率是：

$p (Z | α) = \prod m M \int p (z m | θ m) p (θ m | α) d θ m = \prod m M \int \prod n N p (θ m, n) n z n D i r (θ m | α) d θ m = \prod m M \int \prod n N p (θ m, n) n z n 1 △ ( α ) \prod n N p (θ m, n) α - 1 d θ m = \prod m M 1 △ ( α ) \int \prod n N p (θ m, n) n n + α - 1 d θ m = \prod m M △ ( n m + α ) △ ( α )$ $p(Z|\alpha)=\prod_m^M \int p(z_m|\theta_m)p(\theta_m|\alpha)d_{\theta_m}\\ =\prod_m^M\int \prod_n^Np(\theta_{m,n})^{n_{z_n}} Dir(\theta_m|\alpha)d_{\theta_m} \\ =\prod_m^M \int \prod_n^Np(\theta_{m,n})^{n_{z_n}}\frac{1}{\bigtriangleup(\alpha) }\prod_n^Np(\theta_{m,n})^{\alpha-1}d_{\theta_m}\\ =\prod_m^M\frac{1}{\bigtriangleup(\alpha)}\int \prod_n^N p(\theta_{{m,n}})^{n_{n}+\alpha-1}d_{\theta_m}= \prod_m^M\frac{\bigtriangleup(n_m+\alpha)}{\bigtriangleup(\alpha)}$

注意：n_m是向量表示，代表伪计数；
同理，可以获得word-topic 的分布的后验概率是 $Dir(\phi_k|n_k+\beta)$ ,

p (W | Z, β) = \prod k K p (W (k) | Z (k), β) = \prod k K △ ( n k + β ) △ ( β )

$p(W|Z,\beta)=\prod_k^Kp(W_{(k)}|Z_{(k)},\beta)\\ =\prod_k^K \frac{\bigtriangleup(n_k+\beta)}{\bigtriangleup(\beta)}$

然后计算联合概率：

p (W, Z | α, β) = p (Z | α) p (W | Z, β) = \prod k K △ ( n k + β ) △ ( β ) \prod m M △ ( n m + α ) △ ( α )

$p(W,Z|\alpha,\beta)=p(Z|\alpha)p(W|Z,\beta)\\ =\prod_k^K \frac{\bigtriangleup(n_k+\beta)}{\bigtriangleup(\beta)}\prod_m^M\frac{\bigtriangleup(n_m+\alpha)}{\bigtriangleup{(\alpha)}}$
由于W是观测变量，因此我们可以获得隐变量Z的条件概率；
（注：这里可以使用变分EM模型解耦，然后估计隐变量Z的分布；另一种是使用gibbs 采样进行估计）；