Introduction to Topic Modeling learning

原文:http://chentingpc.me/article/?id=616

 

Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA->various LDA,pLSI和LDA都是生成模型,特别是LDA,这种看待文本的思想是很奇妙的。LDA的思想虽简单,但是利用EM/Gibbs等进行概率推导学起 来就没那么简单(写此文时候这部分还没完全弄清楚;唐总说TM是用一个月来学的问题或用两三个月来学的问题,呼呼,真的假的。。不知道他说这句话时候的要 求是多高)。

 

仔细看LDA有两三天了,今晚也跑了跑Mallet,也有了感性的认识。下面就把入门的文章整理下吧(这些文章都可以从网上公开下载,所以这里附件其中不算侵权吧。。。):

 

 

Survey

Specific

Video Lecture

  • D.Blei的一个很不错的lecture,由于网速原因,我只能看到其课件不能看lecture,但毫无疑问是好lecture(这东西就是D.Blei等人03年提出的)。
  • 另一个D. Blei的lecture

Open Source

Derived (not recommended for newcomers)

  • dynamic LDA : dynamic_topic_models.pdf
  • The Author-Topic Model for Authors and Documents
  • Correlated Topic Models
  • Automatic Labeling of Multinomial Topic Model
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值