lda主题模型的可视化_神奇的LDA主题模型

之前有说过pLSA模型,这是一个链式模型,这个模型能够快速生成主题,但是也有它的不足之处(毕竟是1999年左右提出的嘛!),一个很致命的缺点就是不能解决一词多义的问题。 这样就不能很好的区分主题的个数了。(但是不能否认这确确实实是一个经典的模型,花了很长时间去看,通过这个模型我才接下来看到更经典的LDA模型)。所以在这里和大家分享一个可以说是文本主题模型里面最为经典的模型之一-----------------LDA模型。提出这个模型的那篇英文原版论文引用次数已经是用万来计数的。。。。。。。很恐怖(比我们这种为了发一篇论文苦苦搜锻炼脑细胞的强太多   手动流汗 流汗 流汗)

1.游戏规则

看懂这个模型的话需要对照着PLDA模型来看,就在上一篇文档里面吧!

有一个很神奇的学派叫做贝叶斯学派(这个模型实际上是在PLSA模型上加上贝叶斯框架形成的,至于什么叫贝叶斯框架,那就得说Beta/Dirichlet分布了,也在之前的文章有),这个学派对于PLSA模型是有意见滴!他们觉得doc-topic之中 θm 和  topic-word  之中  ϕ~k都是模型之中的参数,既然都是参数,怎么能没有先验分布呢? 为了装个逼,他们进行如下改造:

类似于Unigram Model  的贝叶斯改造,我们也可以在如下两

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

a19a9bc02342

Gibbs Sampling

( 哎呦,看到这个是不是有点熟悉,嘿嘿前面的文章专门有介绍吉布斯采样。说过这个采样确实是非常经典的方法!)

a19a9bc02342

a19a9bc02342

a19a9bc02342

使用上面两个公式就可以推导出吉布斯采样公式

a19a9bc02342

a19a9bc02342

a19a9bc02342

利用LDA模型进行训练和推导

学习LDA模型说到底就是为了用嘛,其实说句实在话,在工程上,  利用LDA模型进行文本主题检测就是一段代码的事,网上有用C/C++,JAVA,Python编好的代码,但是对于想用这个模型进行创新的话就得学习它的理论知识,并且知道它的整个流程,才有机会结合具体情况对模型进行创新,改造。(写论文的苦逼之处啊!)

a19a9bc02342

a19a9bc02342

最后一句费曼的名言和大家分享,探索之路还很长............

What I cannot create, I do not understand.

— Richard Feynman

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值