前言
LSA是以矩阵的奇异值分解形式实现的,而pLSA是LSA的概率化,属于概率图模型中的生成模型。
概率潜在语义分析
LSA通过矩阵的奇异值分解得到文档和主题的相关度,词和词义的相关度以及词义和主题的相关度。但是该模型缺乏统计基础,得到的也不是一个概率模型,难以进行直观的解释。
pLSA模型中引入了隐变量
z
z
z作为潜在语义,并使用EM算法对潜在语义模型进行拟合;设文档
d
d
d总数为
i
i
i、潜在语义
z
z
z总数为
k
k
k,单词总数
w
w
w为
j
j
j,文档-单词的共现频率矩阵
N
=
(
n
i
j
)
N=(nij)
N=(nij),
n
(
d
i
,
w
j
)
n(d_i,w_j)
n(di,wj)表示单词
w
j
w_j
wj在文档
d
i
d_i
di中出现的频率。
P
(
d
i
,
w
j
)
=
P
(
d
i
)
P
(
w
j
∣
d
i
)
=
∑
k
=
1
K
P
(
d
i
,
z
k
,
w
j
)
=
∑
k
=
1
K
P
(
d
i
)
P
(
z
k
∣
d
i
)
P
(
w
j
∣
z
k
)
P
(
w
j
∣
d
i
)
=
∑
k
=
1
K
P
(
z
k
∣
d
i
)
P
(
w
j
∣
z
k
)
)
P
(
z
k
,
d
i
)
=
P
(
d
i
)
P
(
z
k
∣
d
i
)
=
P
(
z
k
)
P
(
d
i
∣
z
k
)
P
(
d
i
,
w
j
)
=
∑
k
=
1
K
P
(
z
k
)
P
(
d
i
∣
z
k
)
P
(
w
j
∣
z
k
)
P(d_i,w_j)=P(d_i)P(w_j|d_i)=\sum_{k=1}^{K}{P(d_i,z_k,w_j)}=\sum_{k=1}^{K}{P(d_i)P(z_k|d_i)P(w_j|z_k)} \\ P(w_j|d_i)=\sum_{k=1}^KP(z_k|d_i)P(w_j|z_k)) \\ P(z_k,d_i)=P(d_i)P(z_k|d_i)=P(z_k)P(d_i|z_k) \\ P(d_i,w_j)=\sum_{k=1}^KP(z_k)P(d_i|z_k)P(w_j|z_k)
P(di,wj)=P(di)P(wj∣di)=k=1∑KP(di,zk,wj)=k=1∑KP(di)P(zk∣di)P(wj∣zk)P(wj∣di)=k=1∑KP(zk∣di)P(wj∣zk))P(zk,di)=P(di)P(zk∣di)=P(zk)P(di∣zk)P(di,wj)=k=1∑KP(zk)P(di∣zk)P(wj∣zk)
pLSA的求解步骤如下:
- 初始化:
令 P ( z k ) P(z_k) P(zk)=\frac{1}{K}, P ( z k ∣ d i ) P(z_k|d_i) P(zk∣di)和 P ( w j ∣ z k ) P(w_j|z_k) P(wj∣zk)分别赋予一个0到1 之间的随机数作为初始值。 - E步骤计算任何一个
(
d
i
,
w
j
)
(d_i,w_j)
(di,wj)对产生潜在语义
z
k
z_k
zk的后验概率:
P ( w j ∣ z k ) = P ( z k ∣ d i ) P ( w j ∣ z k ) ∑ l = 1 K P ( z l ∣ d i ) P ( w j ∣ z l ) P(w_j|z_k)=\frac{P(z_k|d_i)P(w_j|z_k)}{\sum_{l=1}^KP(z_l|d_i)P(w_j|z_l)} P(wj∣zk)=∑l=1KP(zl∣di)P(wj∣zl)P(zk∣di)P(wj∣zk) - M步根据公式对模型重新估计:
P ( w j ∣ z k ) = ∑ i = 1 N P ( d i , w j ) P ( z k ∣ d i , w j ) ∑ m = 1 M ∑ i = 1 N P ( d i , w m ) P ( z k ∣ d i , w m ) P(w_j|z_k)=\frac{\sum_{i=1}^NP(d_i,w_j)P(z_k|d_i,w_j)}{\sum_{m=1}^M\sum_{i=1}^NP(d_i,w_m)P(z_k|d_i,w_m)} P(wj∣zk)=∑m=1M∑i=1NP(di,wm)P(zk∣di,wm)∑i=1NP(di,wj)P(zk∣di,wj)
结束语
本人大三学生一枚,学识尚浅,不喜勿喷,希望今日能抛砖引玉,请各位大佬一定不吝赐教!!!
参考自:https://www.pianshen.com/article/1431723313/