统计学习方法—概率潜在语义分析
概率潜在语义分析
概率潜在语义分析(probabilistic latent semantic analysis, PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点使用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析模型
在前述的单词-文本矩阵的基础下,文本数据基于如下的概率模型产生(共现模型):首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。
生成模型
- 简单例子:
假设有:
单词集合 W = { w 1 , w 2 , ⋯ , w M } W=\{w_1, w_2,\cdots, w_M\} W={ w1,w2,⋯,wM};
文本集合 D = { d 1 , d 2 , ⋯ , d N } D=\{d_1,d_2,\cdots,d_N\} D={ d1,d2,⋯,dN};
话题集合 Z = { z 1 , z 2 , ⋯ , c K } Z&