Gibbs sampling -- batch LDA

  详细的推导我就不记录了,毕竟各种文章中都有讲到LDA的各种实现算法。用variational inference的,用gibbs sampling的。Gibbs sampling又有batch的,online的,incremental的等等。这里只提一种常用的batch gibbs sampling算法,即由Griffiths和Steyers提出的collapsed Gibbs sampler。
  其中batch gibbs sampling 也就是传统的静态数据集上运行的LDA算法,这也是我们这一篇文章所涉及到的,动态的o-LDA和iLDA在以后的文章中讲。结合上一篇文章中提到的Gibbs抽样基本思想来理解,这个抽样器的状态空间是主题在每一篇文章中的词上的分布。该算法被称为“collapsed”是由于它把变量 θ ϕ 都积掉了,只留下隐含主题变量 zN 需要被抽样。这种思想也是统计推断中常用到的,即将不关心的变量都尽量积掉,这样能大大降低算法的时空复杂度。

  对于算法collapsed Gibbs sampler,它的核心就是对单词 j 基于以下条件概率进行抽样:

P(zj|zNj,wN)n(wj)zj,Nj+βn(dj)zj,Nj+αn()zj,Nj+Wβn(dj),Nj+Tα

  其中 ZNj 表示 (z1,...,zj1,zj+1,...,zN) W 是vocabulary的大小,也就是不同单词的个数。n(wj)zj,Nj表示当前iteration时,单词 wj 被分配为主题 zj 的次数, n()zj,Nj 是所有词被分配为主题 zj 的个数,等等。

经过算法

1: initialize zN randomly from 1,...,TN
2: loop
3:  choose j from {1,…,N}
4:  sample zj from P(zj|zNj,wN)

收敛到后验概率分布 P(zN|wN) 。也就得到了我们所希望求得的每个词所属主题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值