概率潜在语义分析

最新推荐文章于 2021-10-07 17:22:12 发布

Be Lady

最新推荐文章于 2021-10-07 17:22:12 发布

阅读量361

点赞数 1

文章标签：机器学习深度学习人工智能

原文链接：https://www.pianshen.com/article/1431723313/

版权

前言

LSA是以矩阵的奇异值分解形式实现的，而pLSA是LSA的概率化，属于概率图模型中的生成模型。

概率潜在语义分析

LSA通过矩阵的奇异值分解得到文档和主题的相关度，词和词义的相关度以及词义和主题的相关度。但是该模型缺乏统计基础，得到的也不是一个概率模型，难以进行直观的解释。
pLSA模型中引入了隐变量 $z$ 作为潜在语义，并使用EM算法对潜在语义模型进行拟合；设文档 $d$ 总数为 $i$ 、潜在语义 $z$ 总数为 $k$ ，单词总数 $w$ 为 $j$ ，文档-单词的共现频率矩阵 $N = (n i j)$ ， $n(d_i,w_j)$ 表示单词 $w_j$ 在文档 $d_i$ 中出现的频率。
$P(d_i,w_j)=P(d_i)P(w_j|d_i)=\sum_{k=1}^{K}{P(d_i,z_k,w_j)}=\sum_{k=1}^{K}{P(d_i)P(z_k|d_i)P(w_j|z_k)} \\ P(w_j|d_i)=\sum_{k=1}^KP(z_k|d_i)P(w_j|z_k)) \\ P(z_k,d_i)=P(d_i)P(z_k|d_i)=P(z_k)P(d_i|z_k) \\ P(d_i,w_j)=\sum_{k=1}^KP(z_k)P(d_i|z_k)P(w_j|z_k)$
pLSA的求解步骤如下：

初始化：
令 $P(z_k)$ =\frac{1}{K}， $P(z_k|d_i)$ 和 $P(w_j|z_k)$ 分别赋予一个0到1 之间的随机数作为初始值。
E步骤计算任何一个 $d_i,w_j)$ 对产生潜在语义 $z_k$ 的后验概率：
$P(w_j|z_k)=\frac{P(z_k|d_i)P(w_j|z_k)}{\sum_{l=1}^KP(z_l|d_i)P(w_j|z_l)}$
M步根据公式对模型重新估计：
$P(w_j|z_k)=\frac{\sum_{i=1}^NP(d_i,w_j)P(z_k|d_i,w_j)}{\sum_{m=1}^M\sum_{i=1}^NP(d_i,w_m)P(z_k|d_i,w_m)}$

结束语

本人大三学生一枚，学识尚浅，不喜勿喷，希望今日能抛砖引玉，请各位大佬一定不吝赐教！！！
参考自：https://www.pianshen.com/article/1431723313/

Be Lady

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率潜在语义分析

前言 LSA是以矩阵的奇异值分解形式实现的，而pLSA是LSA的概率化，属于概率图模型中的生成模型。概率潜在语义分析 LSA通过矩阵的奇异值分解得到文档和主题的相关度，词和词义的相关度以及词义和主题的相关度。但是该模型缺乏统计基础，得到的也不是一个概率模型，难以进行直观的解释。 pLSA模型中引入了隐变量zzz作为潜在语义，并使用EM算法对潜在语义模型进行拟合；设文档ddd总数为iii、潜在语义zzz总数为kkk，单词总数www为jjj，文档-单词的共现频率矩阵N=(nij)N=(nij)N=
复制链接

扫一扫