![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文学习
文章平均质量分 69
feixiangcq
这个作者很懒,什么都没留下…
展开
-
在线主题演化模型
<br /> <br />基本思想:<br /> <br />1.时间片切分<br /> 两种方法:纯粹时间切分按照大小切分,考虑计算情况<br />2.LDA演化模型<br /> 本文用前一时间片的后验概率影响下一时间片的先验概率来保持主题间的连续性。<br />对影响程度的度量用遗传度W来进行设置。具体为前一时间片计算出的主题-词的后验概率<br />at-1乘上遗传度W 作为当前时间片的先验概率at,即<br /> at =at-1*W。<br />直观的解释就是把当原创 2010-06-06 18:17:00 · 5314 阅读 · 2 评论 -
LDA学习之路之开篇(转个别人对LDA的理解)
转自--http://hi.baidu.com/flyer_hit/blog/item/2ec12d251dd9dd6835a80f55.html 感谢这位仁兄,先把这篇文章理解了。再来看LDA.LDA是比PLSA更“高级”的一种topic model。“高级”在哪里呢?--它是一个Bayes Hierarchy Model。所谓Bayes Hierarchy Model说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。Topic model的一个通式为P(w|d) = s转载 2010-06-05 11:28:00 · 7828 阅读 · 1 评论 -
LDA学习
2010-06-06今日学习总结,对TopicModel有了大致的了解,学习了LSI,PLSI等模型含义。对参数估计方法:EM,变分推理,Gibbs抽样进行了了解;对LDA大致过程熟悉,但是仍有诸多问题。列出如下,以后进行解答:1.d在z上的分布? p(z=j|d),已知d,那么有主题j的概率。 =>d在z空间上的分布?2.混合模型?1个文档只能有1个主题,其图是什么含义?3.EM算法:提供一个简单的迭代算法计算后验密度函数。 迭代什么,去看个案例。4.PLSI与LSI关系?5.PLSI PL原创 2010-06-06 11:44:00 · 7018 阅读 · 0 评论 -
LDA更清晰的解析
1.LDA文档生成过程 说明:PLSA只能选择一个主题。这是区别所在。 2.经典的LDA图形表示: 说明:w为词语,可以观察到的值,其它均为隐含变量。图反映了生产一篇文档的过程,对于词语w,首先选定一个主题z,而z服从θ的多项式分布Multinomial(θ);而θ又服从α的Dirichlet(α)的分布。在选定一个主题后,还得确定对应于该主题下词语w的概率,可以从β获得。β为一个K*V的矩阵。其中K代表主题维数,V代表词语维数。 3.LDA的概率模型推导 (好好补补概率的知识) 计原创 2010-06-08 11:09:00 · 10503 阅读 · 3 评论 -
交互式LDA
作用 增强用户体验,聚焦主题挖掘的效果。对于用户不感兴趣或者不关注的主题,用户可以通过调整每次迭代结束后的主题-词概率分布来指导和监督下一次迭代推理过程。 基本LDA问题 可交互性。使用参数推理技术如期望最大化(EM),Gibbs等抽样算法。基本的LDA推理过程是fire-and-go模式,不能进行交互。 解决方案:主题-词概率分布。LDA模型推理出的是文档-主题和主题-词概率分布,其中文档-主题概率分布跟具体的文档有关,是客观的。而主题-原创 2010-06-08 21:50:00 · 2739 阅读 · 0 评论