LDA学习

本文介绍了2010年作者对Topic Model的学习心得,重点探讨了LSI、PLSI和LDA模型。理解了LSI通过SVD进行向量空间的低维映射,PLSI作为主题模型的不足在于处理新文档的局限性,而LDA则采用三层贝叶斯概率模型,引入Dirichlet先验解决参数估计问题。
摘要由CSDN通过智能技术生成

2010-06-06

 

今日学习总结,对TopicModel有了大致的了解,学习了LSI,PLSI等模型含义。

对参数估计方法:EM,变分推理,Gibbs抽样进行了了解;

对LDA大致过程熟悉,但是仍有诸多问题。列出如下,以后进行解答:

 

1.d在z上的概率分布?->相当于文档由一系列主题加权而成。各主题均有一定概率。

   p(z=j|d),已知d,那么有主题j的概率。->条件概率,选定主题后,再选定主题j的概率。

 

2.混合模型?1个文档只能有1个主题

3.EM算法:提供一个简单的迭代算法计算后验密度函数。->最大期望算法,算是参数估计的一种。利用上一次的后验(后验分布的期望值)   作为下一次实验的先验,是Bayes方法的一种。与最大使然估计不同,EM方法实验获得的样本,包含一种隐含变量。

   迭代什么,去看个案例。

4.PLSI与LSI关系?(LSI潜在语义索引,把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解SVD(Singular Value Decomposition)来实现的。)PLSI是主题模型的一种。

5.PLSI

   PLSI模型对文档中主题的混合权重θ没有做任何假设,使得模型中的θ与特定文档相关,

   因此缺乏处理新文档的自然方法,待估参数的数量随着文档数量的增多线性增长,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值