使用来表示文档--主题分布的超参数,使用来表示主题--词汇分布的超参数,这些超参数的先验分布被定义在一个狄利克莱分布中,如下所示:
在给定参数的情况下,所有隐变量(主题)的概率被定义在一个多项式分布中,其中表示在文档m中,被赋给主题k的词汇数量。
在给定参数的情况下,所有可观测变量(单词)的概率和所有的隐变量被定义在一个多项式分布中,其中表示语料库中单词v被赋予主题z的次数。
注意,在以上两个公式中,我们假设在给定参数的情况下,所有变量均独立于超参数。
在给定超参数的情况下,所有变量(包括参数)的联合分布被定义如下:
在获取这个联合概率后,我们准备积分掉所有的参数:
最终所得内容使用了公式8(也即公式9上面的推导内容)的结果,同时也使用了gamma公式的一个重要性质: