Probabilistic Latent Semantic Analysis 概率隐含语义分析

Probabilistic Latent Semantic Analysis 实际上是对PCA在LSA这个应用上的一个概率上的延展。PCA中并未给出对于数据的任何假设,是否为同一分布的随机抽样,是否数据的每一维都相互独立,等等。但如果数据存在某种分布,则PCA没有办法予以利用。而且PCA没有一个稳固的概率解释,也让人颇为遗憾。除此之外,PCA在处理 latent semantic analysis 时没有办法处理一词多义 polysymy 现象,就是没有办法将一个词分列入两个阵营,所以很遗憾。而且在大规模的 latent semantic analysis 中,由于词汇量巨大,使得文章x词汇的矩阵非常稀疏,这也对计算协方差矩阵的特征向量eigenvector产生了困难。如果建立概率模型,就能很好地克服这一点。

 

pLSA的paper看了很多遍,但是如何对这一思想进行其他领域的拓展,仍然思考得不是很清楚,希望能够通过这篇总结给自己找到点思路。选取的材料除了原论文,还有一个别人做的tutorialhttp://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV1011/oneata.pdf。和paper差不多,但是比较简明扼要。不过后来发现这个tutorial上面的likelihood function和原paper不一样,就还是回到原paper了。

 

pLSA 的目的是通过对cooccurrence(共同发生)信息建立概率模型,来寻找数据中潜在的语义结构。它是由Th. Hofmann于1999年建立的。刚开始是被采用在基于文本的应用上,之后迅速传播到其他领域,例如机器视觉和声音处理。在这篇的讨论中,我们也讲只讨论文本应用的例子。pLSA的目的是通过cooccurrence矩阵来得到所谓的“话题topic”,然后讲文件通过topic表示出来。

 

pLSA 一共有三种变量:

Documents:   . N为文件的总数。

Words:  . M为所有文件中不同的word的个数。

Topics: . topic就是我们所说的隐含变量 latent variable. K 需要事先确定好。

三种变量之间的关系如图:

我们能够观察到的为(d,w)对,而topic与document和word的关系如图。下面介绍产生文件的generative model:

a) 首先我们选择一个文件 dn ,概率为P(d).

b) 对dn中的每一个单词  :

 - 从选择的文件中选择一个topic zi ,为多项式的条件概率 P(z|dn).

   - 从选择的topic中选择一个单词 wi ,为多项式的条件概率 P(w|zi).

 

上述过程中需要注意的非常重要的假设:

a) Bag-of-words。每个文件被看作一个无序的单词的组合,即 (d,w) 这样的联合组合是相互独立的,这样

b) 条件独立 conditional independence。就是说单词和文件在给定topic后是条件独立的:P(w,d|z) = P(w|z)P(d|z) 或 P(w|d,z) = P(w|z)。(这个关系通过图可以看出来,从 d 到 w 被 z 挡住了。)

 

通过定义联合分布,我们能得到完整的模型。

通过条件独立的假设,我们得到

   

我们将以上两公式称为公式一和公式二。

公式一为下图混合模型的数学表示。

模型中的参数为P(w|z)和P(z|d),数量分别为(M-1)K 和 N(K-1),也就是说参数的总数随着文章总数增长程线性增长,而且模型也容易收到overfitting的影响。

参数可以通过最大化likelihood来得到,即观察到的word发生的预测概率。这个预测概率为P(w|d),所以likelihood function为:

其中 n(d,w) 表示observed frequency,也就是 w 出现在 d 中的次数。

对likelihood两边取log,作为新的likelihood function,为

 Likelihood function的最大值可以通过 EM (Expectation-Maximization) algorithm 得到:

 

EM algorithm:

E-step:

M-step:

 

对于pLSA的likelihood function,一直心存疑惑。但是寻找资料后也没有得到一个合理的解释。

下一篇讲讲likelihood function。在很多统计书中,也仅仅是在假设检验和贝叶斯模型中引入likelihood,但没有给出一个概念上的完整的解释。今天看到wikipedia上的解释,恍然大悟,准备在这篇中写出来的,但后来觉得还是单列出来比较好。后来想到还有不少统计知识需要补充,所以下篇为一些重要的统计知识。

转载于:https://www.cnblogs.com/yuzhung/archive/2012/08/27/2657912.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值