文章目录
基本概要
概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。
模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析受潜在语义分析的启发,1999年由Hofmann提出。最初用于文本数据挖掘,后来扩展至其他领域。
上面的说法比较抽象,下面采用更加具体的说法。给定一个文本集合(一句句的话),每个文本(一句话)讨论若干个话题,每个话题由若干个单词表示。对文本集合进行概率潜在语义分析,就能发现每个文本的话题,以及每个话题的单词。
这时候就可以发现似乎可以对上面的情况来进行概率统计建模了。首先有话题的概率分布,这个概率分布是无法探知但是确实存在的,就是隐变量;然后有给定话题下文本的条件概率分布;还有给定话题下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题,就是潜在语义。
下面来建立具体的概率模型。
生成模型和共现模型
假设有单词集合 W = { w 1 , w 2 , ⋯ , w M } W=\left\{w_{1}, w_{2}, \cdots, w_{M}\right\} W={ w1,w2,⋯,wM};文本集合 D = { d 1 , d 2 , ⋯ , d N } D=\left\{d_{1}, d_{2}, \cdots, d_{N}\right\} D={ d1,d2,⋯,dN};以及话题集合 Z = { z 1 , z 2 , ⋯ , z K } Z=\left\{z_{1}, z_{2}, \cdots, z_{K}\right\} Z={ z1,z2<