PLSA的理解及推导

        plsa对于文本主题的发展,在于其对于lsa进行了概率化,也就是文档的生成过程涉及到了选择主题,然后从主题中选择单词的过程,这二个选择的过程都满足多项式分布的情况。

       对于PLSA而言,就是一个典型的EM算法问题呀。主题就是隐含变量,已知变量就是单词,文本的情况。再求解EM算法时,首先要明确极大化的对数似然函数,然后求E步,E步求解中首先要把隐含变量的条件概率求出来,然后求Q函数,然后再求M,也就是求期望最大的情况,得到参数的估计值,不断迭代,直到收敛。然后就把我们想要知道得参数求出来了。知道参数了,其中的一个副产品,可以说是词向量了。

没有更多推荐了,返回首页