LDA之我见

      本文纯粹出于个人理解,公式纯手打难免有误,不对的地方请指出。

      LDA认为一个语料库中的某个文档w又一系列的主题z生成的,而这一系列的主题是潜在的不可见的,其实就是个混合模型:


     在贝叶斯的理论框架之下,将z的参数也当作变量:


     那么概率模型雏形就出来了,LDA是一个典型“词带”的模型,即对文档词w作条件独立假设:


     其中


     那么对于整个语料库D:


     到这里,整个LDA的模型就已经构建结束,模型的训练和大部分混合模型类似,采用EM去估计:


       在计算z的后验分布时候,会发现这个计算量随着w的数量呈指数增长,因此为了缩减计算量,用一个近似分布来逼近这个真实的后验分布,比如拉普拉斯近似,或者变分推断的方法(详见,另一篇变分推断)。

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值