【主题建模】
大数据时代,面对海量的数据,如果能知道它的主题是什么,从数据压缩的角度来看,我们可以通过很少量的主题来管理很大亮的文档数据集合,从而实现一个比较简洁的操作和管理文档集合的目的;除此之外,如果我们能得到主题信息的话,我们能够通过主题信息去进一步提升其它领域,比如说,推荐系统、信息检索、分类等。
主题:一个词集合上面的概率分布。比如对于“计算机”这个主题来说,它在一个词集合上面的概率分布为:
隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)
LDA的整体结构
可以理解为:一共有M个文档,每个文档是在K个主题词的词集合上以一定的概率分布的;而这K个主题词中的每一个主题词,都是在1到|V|这些词所组成的词集合上以一定概率分布的。α可以看作是K个主题词形成的词集合,β可以看作是V个词组成的词集合。θ 和φ都是分别是由参数α和β生成的狄利克雷分布(是一类在实数域以正单纯形为支撑集的高维连续概率分布),θ是一个M*K的矩阵,表示M个文档和K个主题词之间的关系;φ是一个K*V的矩阵,表示K个主题词和V个词之间的关系。
一共有M篇文档,循环以下过程:
1.一篇文档含有N个词,N服从于一个泊松分布,第一步先根据泊松分布生成一个N。
2. 然后再选择一个θ,θ是一个M*K的矩阵,表示M个文档和K个主题词之间的关系。
3. 对于文档中的每一个词,其主题z服从于一个参数为θ的多项式分布,w是在它的主题和该主题的指示下生成的。
【吉布斯采样】
吉布斯采样算法,就是用条件分布的抽样来替代全概率分布的抽样。采样方法如下:
由于吉布斯采样是一个收敛的算法,所以当抽取足够多的时候,最后得到的样本就是一个全概率分布的样本。
【隐狄利克雷分配模型的参数学习】
参考资料:机器学习-北京理工大学-中国大学mooc