Probabilistic Latent Semantic Analysis 概率隐含语义分析

最新推荐文章于 2023-04-27 08:28:37 发布

weixin_30594001

最新推荐文章于 2023-04-27 08:28:37 发布

阅读量80

点赞数

原文链接：http://www.cnblogs.com/yuzhung/archive/2012/08/27/2657912.html

版权

Probabilistic Latent Semantic Analysis 实际上是对PCA在LSA这个应用上的一个概率上的延展。PCA中并未给出对于数据的任何假设，是否为同一分布的随机抽样，是否数据的每一维都相互独立，等等。但如果数据存在某种分布，则PCA没有办法予以利用。而且PCA没有一个稳固的概率解释，也让人颇为遗憾。除此之外，PCA在处理 latent semantic analysis 时没有办法处理一词多义 polysymy 现象，就是没有办法将一个词分列入两个阵营，所以很遗憾。而且在大规模的 latent semantic analysis 中，由于词汇量巨大，使得文章x词汇的矩阵非常稀疏，这也对计算协方差矩阵的特征向量eigenvector产生了困难。如果建立概率模型，就能很好地克服这一点。

pLSA的paper看了很多遍，但是如何对这一思想进行其他领域的拓展，仍然思考得不是很清楚，希望能够通过这篇总结给自己找到点思路。选取的材料除了原论文，还有一个别人做的tutorialhttp://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV1011/oneata.pdf。和paper差不多，但是比较简明扼要。不过后来发现这个tutorial上面的likelihood function和原paper不一样，就还是回到原paper了。

pLSA 的目的是通过对cooccurrence（共同发生）信息建立概率模型，来寻找数据中潜在的语义结构。它是由Th. Hofmann于1999年建立的。刚开始是被采用在基于文本的应用上，之后迅速传播到其他领域，例如机器视觉和声音处理。在这篇的讨论中，我们也讲只讨论文本应用的例子。pLSA的目的是通过cooccurrence矩阵来得到所谓的“话题topic”，然后讲文件通过topic表示出来。

pLSA 一共有三种变量：

Documents: $d\ \epsilon \ D =\left \{ d_1, ...,d_N \right \}$ . N为文件的总数。

Words: $w\ \epsilon \ W =\left \{ w_1, ...,w_M \right \}$ . M为所有文件中不同的word的个数。

Topics: $z\ \epsilon \ Z =\left \{ z_1, ...,z_K \right \}$ . topic就是我们所说的隐含变量 latent variable. K 需要事先确定好。

三种变量之间的关系如图：

我们能够观察到的为(d,w)对，而topic与document和word的关系如图。下面介绍产生文件的generative model：

a) 首先我们选择一个文件 d_n ，概率为P(d).

b) 对d_n中的每一个单词 $w_i, i\ \epsilon \ \left \{ 1, ...,N_w \right \}$ ：

　- 从选择的文件中选择一个topic z_i ，为多项式的条件概率 P(z|d_n).

- 从选择的topic中选择一个单词 w_i ，为多项式的条件概率 P(w|z_i).

上述过程中需要注意的非常重要的假设：

a) Bag-of-words。每个文件被看作一个无序的单词的组合，即 (d,w) 这样的联合组合是相互独立的，这样

$P\left ( D,W \right )=\prod_{\left ( d,w \right )}^{ } P\left ( d,w \right )$

通过定义联合分布，我们能得到完整的模型。

$P\left ( d,w \right )=P\left( d \right)P\left(w|d\right)$

$P\left ( d|w \right )=\sum_{z\epsilon Z}^{ }P\left( w,z|d \right)=\sum_{z\epsilon Z}^{ }P\left( w|d,z \right)P\left( z|d \right)$

通过条件独立的假设，我们得到

$P\left ( w|d \right )=\sum_{z\epsilon Z}^{ }P\left( w|z \right)P\left( z|d \right)$

$P\left ( w,d \right )=\sum_{z\epsilon Z}^{ }P\left( z \right)P\left( w|z \right)P\left( z|d \right)$

我们将以上两公式称为公式一和公式二。

公式一为下图混合模型的数学表示。

模型中的参数为P(w|z)和P(z|d)，数量分别为(M-1)K 和 N(K-1)，也就是说参数的总数随着文章总数增长程线性增长，而且模型也容易收到overfitting的影响。

参数可以通过最大化likelihood来得到，即观察到的word发生的预测概率。这个预测概率为P(w|d)，所以likelihood function为：

$L=\prod_{\left(d,w\right)}^{ }P(d,w)=\prod_{d\in D}\prod_{w\in W}P\left(d,w \right )^{n\left(d,w \right )}$

其中 n(d,w) 表示observed frequency，也就是 w 出现在 d 中的次数。

对likelihood两边取log，作为新的likelihood function，为

$L=\sum_{d \in D}\sum_{w \in W}n\left(d,w \right )log P(d,w)$

Likelihood function的最大值可以通过 EM (Expectation-Maximization) algorithm 得到：

EM algorithm:

E-step:

$P\left(z|d,w \right )=\frac{P\(z)P\(d|z)P\(w|z)}{\sum_{{z}'}P\(z')P\(d|z')P\(w|z')}$

M-step:

$P\(w|z)=\frac{\sum_{d}n\(d,w)P\(z|d,w)}{\sum_{d,w'}n\(d,w')P\(z|d,w')}$

$P\(d|z)=\frac{\sum_{w}n\(d,w)P\(z|d,w)}{\sum_{d',w}n\(d',w)P\(z|d',w)}$

$P\(z)=\frac{1}{R}\sum_{d,w}n\(d,w)P\(z|d,w)$

$R=\sum_{d,w}n\(d,w)$

对于pLSA的likelihood function，一直心存疑惑。但是寻找资料后也没有得到一个合理的解释。

下一篇讲讲likelihood function。在很多统计书中，也仅仅是在假设检验和贝叶斯模型中引入likelihood，但没有给出一个概念上的完整的解释。今天看到wikipedia上的解释，恍然大悟，准备在这篇中写出来的，但后来觉得还是单列出来比较好。后来想到还有不少统计知识需要补充，所以下篇为一些重要的统计知识。

转载于:https://www.cnblogs.com/yuzhung/archive/2012/08/27/2657912.html

weixin_30594001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Probabilistic Latent Semantic Analysis 概率隐含语义分析

Probabilistic Latent Semantic Analysis 实际上是对PCA在LSA这个应用上的一个概率上的延展。PCA中并未给出对于数据的任何假设，是否为同一分布的随机抽样，是否数据的每一维都相互独立，等等。但如果数据存在某种分布，则PCA没有办法予以利用。而且PCA没有一个稳固的概率解释，也让人颇为遗憾。除此之外，PCA在处理 latent semantic analysis...
复制链接

扫一扫