2010-06-06
今日学习总结,对TopicModel有了大致的了解,学习了LSI,PLSI等模型含义。
对参数估计方法:EM,变分推理,Gibbs抽样进行了了解;
对LDA大致过程熟悉,但是仍有诸多问题。列出如下,以后进行解答:
1.d在z上的概率分布?->相当于文档由一系列主题加权而成。各主题均有一定概率。
p(z=j|d),已知d,那么有主题j的概率。->条件概率,选定主题后,再选定主题j的概率。
2.混合模型?1个文档只能有1个主题
3.EM算法:提供一个简单的迭代算法计算后验密度函数。->最大期望算法,算是参数估计的一种。利用上一次的后验(后验分布的期望值) 作为下一次实验的先验,是Bayes方法的一种。与最大使然估计不同,EM方法实验获得的样本,包含一种隐含变量。
迭代什么,去看个案例。
4.PLSI与LSI关系?(LSI潜在语义索引,把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解SVD(Singular Value Decomposition)来实现的。)PLSI是主题模型的一种。
5.PLSI
PLSI模型对文档中主题的混合权重θ没有做任何假设,使得模型中的θ与特定文档相关,
因此缺乏处理新文档的自然方法,待估参数的数量随着文档数量的增多线性增长,