Gibbs sampling -- batch LDA

最新推荐文章于 2024-09-23 21:14:38 发布

Halfangle

最新推荐文章于 2024-09-23 21:14:38 发布

阅读量1.6w

点赞数 1

分类专栏：文本问题算法学习统计模型文章标签：算法 LDA 主题模型

本文链接：https://blog.csdn.net/u010533386/article/details/51495177

版权

文本问题同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

算法学习

2 篇文章 0 订阅

订阅专栏

统计模型

2 篇文章 0 订阅

订阅专栏

详细的推导我就不记录了，毕竟各种文章中都有讲到LDA的各种实现算法。用variational inference的，用gibbs sampling的。Gibbs sampling又有batch的，online的，incremental的等等。这里只提一种常用的batch gibbs sampling算法，即由Griffiths和Steyers提出的collapsed Gibbs sampler。
其中batch gibbs sampling 也就是传统的静态数据集上运行的LDA算法，这也是我们这一篇文章所涉及到的，动态的o-LDA和iLDA在以后的文章中讲。结合上一篇文章中提到的Gibbs抽样基本思想来理解，这个抽样器的状态空间是主题在每一篇文章中的词上的分布。该算法被称为“collapsed”是由于它把变量 $\theta$ 和 $\phi$ 都积掉了，只留下隐含主题变量 $\textbf {z}_N$ 需要被抽样。这种思想也是统计推断中常用到的，即将不关心的变量都尽量积掉，这样能大大降低算法的时空复杂度。

对于算法collapsed Gibbs sampler，它的核心就是对单词 $j$ 基于以下条件概率进行抽样：

P (z j | z N ∖ j, w N) \propto n ( w j ) z j , N ∖ j + β n ( d j ) z j , N ∖ j + α n ( ∙ ) z j , N ∖ j + W β n ( d j ) ∙ , N ∖ j + T α

$P(z_j|\textbf{z}_{N\setminus j}, \textbf{w}_N)\propto \frac{n_{z_j,N\setminus j}^{(w_j)}+\beta n_{z_j,N\setminus j}^{(d_j)}+\alpha}{n_{z_j,N\setminus j}^{(\bullet)}+W\beta n_{\bullet,N\setminus j}^{(d_j)}+T\alpha}$

其中 $Z_{N\setminus j}$ 表示 $(z_1,...,z_{j-1},z_{j+1},...,z_N)$ ， $W$ 是vocabulary的大小，也就是不同单词的个数。 $n_{z_j,N\setminus j}^{(w_j)}$ 表示当前iteration时，单词 $w_j$ 被分配为主题 $z_j$ 的次数， $n_{z_j,N\setminus j}^{(\bullet)}$ 是所有词被分配为主题 $z_j$ 的个数，等等。