LDA原论文的部分解读

本文主要是针对“Latent Dirichlet Allocation”部分的解读。该paper除了提出LDA,还将其与LSI,pLSI以及其他生成模型做了对比。另外它提到了LDA的一个简化版本,其实这个简化版本就足够用来做tweet的情感分析了。


Note: All snapshots and formula below come from the paper "Latent Dirichlet Allocation" 。Appreciation for their great work!


I Latent Dirichlet Allocation

文本处理中,最传统的做法是将文档用tf-idf向量表示。这里,tf-idf其实也可以看成一种降维的方法。但这种方法降维的力度比较小,而且无法体现更抽象的含义。因此,后续出现了LSI,它对term-document矩阵进行奇异值分解。降维的效果是好了,但LSI没有对应的generative(生成)模型,而且SVD的复杂度是O(N^3)。后来,Hofmann提出一个概率上的生成模型pLSI。其公式如下:

 

其中,每个word来自一个mixture model。Mixture Component是latent topic概率上的表示p(w|z)——即不同的topic下,每个word出现的频率也是不一样的。 Mixture Weight是p(z|d),它表示每篇文章有不同的topic distribution。可见在pLSA中,一篇文章可以是多个topic的混合,表现为不同单词可以来自不同的topic。


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值