概率潜在语义分析

前言

  LSA是以矩阵的奇异值分解形式实现的,而pLSA是LSA的概率化,属于概率图模型中的生成模型。

概率潜在语义分析

  LSA通过矩阵的奇异值分解得到文档和主题的相关度,词和词义的相关度以及词义和主题的相关度。但是该模型缺乏统计基础,得到的也不是一个概率模型,难以进行直观的解释。
  pLSA模型中引入了隐变量 z z z作为潜在语义,并使用EM算法对潜在语义模型进行拟合;设文档 d d d总数为 i i i、潜在语义 z z z总数为 k k k,单词总数 w w w j j j,文档-单词的共现频率矩阵 N = ( n i j ) N=(nij) N=(nij) n ( d i , w j ) n(d_i,w_j) n(di,wj)表示单词 w j w_j wj在文档 d i d_i di中出现的频率。
P ( d i , w j ) = P ( d i ) P ( w j ∣ d i ) = ∑ k = 1 K P ( d i , z k , w j ) = ∑ k = 1 K P ( d i ) P ( z k ∣ d i ) P ( w j ∣ z k ) P ( w j ∣ d i ) = ∑ k = 1 K P ( z k ∣ d i ) P ( w j ∣ z k ) ) P ( z k , d i ) = P ( d i ) P ( z k ∣ d i ) = P ( z k ) P ( d i ∣ z k ) P ( d i , w j ) = ∑ k = 1 K P ( z k ) P ( d i ∣ z k ) P ( w j ∣ z k ) P(d_i,w_j)=P(d_i)P(w_j|d_i)=\sum_{k=1}^{K}{P(d_i,z_k,w_j)}=\sum_{k=1}^{K}{P(d_i)P(z_k|d_i)P(w_j|z_k)} \\ P(w_j|d_i)=\sum_{k=1}^KP(z_k|d_i)P(w_j|z_k)) \\ P(z_k,d_i)=P(d_i)P(z_k|d_i)=P(z_k)P(d_i|z_k) \\ P(d_i,w_j)=\sum_{k=1}^KP(z_k)P(d_i|z_k)P(w_j|z_k) P(di,wj)=P(di)P(wjdi)=k=1KP(di,zk,wj)=k=1KP(di)P(zkdi)P(wjzk)P(wjdi)=k=1KP(zkdi)P(wjzk))P(zk,di)=P(di)P(zkdi)=P(zk)P(dizk)P(di,wj)=k=1KP(zk)P(dizk)P(wjzk)
  pLSA的求解步骤如下:

  1. 初始化:
    P ( z k ) P(z_k) P(zk)=\frac{1}{K}, P ( z k ∣ d i ) P(z_k|d_i) P(zkdi) P ( w j ∣ z k ) P(w_j|z_k) P(wjzk)分别赋予一个0到1 之间的随机数作为初始值。
  2. E步骤计算任何一个 ( d i , w j ) (d_i,w_j) (di,wj)对产生潜在语义 z k z_k zk的后验概率:
    P ( w j ∣ z k ) = P ( z k ∣ d i ) P ( w j ∣ z k ) ∑ l = 1 K P ( z l ∣ d i ) P ( w j ∣ z l ) P(w_j|z_k)=\frac{P(z_k|d_i)P(w_j|z_k)}{\sum_{l=1}^KP(z_l|d_i)P(w_j|z_l)} P(wjzk)=l=1KP(zldi)P(wjzl)P(zkdi)P(wjzk)
  3. M步根据公式对模型重新估计:
    P ( w j ∣ z k ) = ∑ i = 1 N P ( d i , w j ) P ( z k ∣ d i , w j ) ∑ m = 1 M ∑ i = 1 N P ( d i , w m ) P ( z k ∣ d i , w m ) P(w_j|z_k)=\frac{\sum_{i=1}^NP(d_i,w_j)P(z_k|d_i,w_j)}{\sum_{m=1}^M\sum_{i=1}^NP(d_i,w_m)P(z_k|d_i,w_m)} P(wjzk)=m=1Mi=1NP(di,wm)P(zkdi,wm)i=1NP(di,wj)P(zkdi,wj)

结束语

本人大三学生一枚,学识尚浅,不喜勿喷,希望今日能抛砖引玉,请各位大佬一定不吝赐教!!!
参考自:https://www.pianshen.com/article/1431723313/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值