LDA 理解及分析

首先给出一些参考网址:

http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1

http://www.xperseverance.net/blogs/tag/gibbs-sampling/

第一个讲的很仔细了

这里我主要是对自己理解的一个总结:

LDA是什么,其实就是一个简单的model。

他能用来干什么呢?他可以用来提取主题,例如我们有一堆的文本或者文档,我们希望得到这些文档包含了那些主题,这个时候我们可以去用LDA模型

我们可以规定提取几个主题和每个主题都包括多少个word,这个是lda可以实现的。

LDA涉及到什么知识:

Direchle Process,吉布斯采样,Gamma分布等等,

但是我们不能被这个吓住了,看LDA的paper也觉得很困难,公式一大堆对吧

其实说白了一直是在找一个公式去计算word-topic,topic-document 和document-word的概率吗

我们先不管这些东西怎么算:

我告诉大家这个东西:

在初始化的时候我们有了alpha和beta,这两个参数就已经告诉了我们topic-document和topic-word的概率了

因为这两个参数告诉了我们topic-document和topic-word的direchlet分布。

那么大家一定觉得这个计算完了,既然已经知道了分布,那就结束了啊

但是我们知道了分布,但是我们不知道如何去分布每个topic中的单词


这个问题如何解决?

于是大家用到了吉布斯采样,也有用用EM算法,当然,都是在求一个最有解而已。

吉布斯采样是MCMC的一个特殊情况。

吉布斯参与的目的是什么呢?

我们用吉布斯参与去更新每一个单词的topic分布,从而达到一个稳定值

这个过程

http://www.xperseverance.net/blogs/tag/gibbs-sampling/

这个bolg里面的代码是LDA的一个java代码

http://www.arbylon.net/projects/LdaGibbsSampler.java

代码很简单,也方便大家的理解。


如果那里写的不对,希望大家指出,互相学习。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值