隐含狄利克雷分布

最新推荐文章于 2024-07-25 15:05:43 发布

Eric An

最新推荐文章于 2024-07-25 15:05:43 发布

阅读量3.7k

点赞数

分类专栏：数据专题《大数据异常检测与推荐系统》文章标签：人工智能机器学习

数据专题《大数据异常检测与推荐系统》专栏收录该内容

83 篇文章 0 订阅

订阅专栏

隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。

LDA首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出^[1]，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

数学模型[编辑]

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

LDA贝叶斯网络结构

另外，正如Beta分布是二项式分布的共轭先验概率分布，狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的，在LDA模型中一篇文档生成的方式如下:

从狄利克雷分布{\displaystyle \alpha } $\alpha$ 中取样生成文档i的主题分布{\displaystyle \theta _{i}} $\theta _{i}$
从主题的多项式分布{\displaystyle \theta _{i}} $\theta _{i}$ 中取样生成文档i第j个词的主题{\displaystyle z_{i,j}} $z_{{i,j}}$
从狄利克雷分布{\displaystyle \beta } $\beta$ 中取样生成主题{\displaystyle z_{i,j}} $z_{{i,j}}$ 的词语分布{\displaystyle \phi _{z_{i,j}}} $\phi _{{z_{{i,j}}}}$
从词语的多项式分布{\displaystyle \phi _{z_{i,j}}} $\phi _{{z_{{i,j}}}}$ 中采样最终生成词语{\displaystyle w_{i,j}} $w_{{i,j}}$

因此整个模型中所有可见变量以及隐藏变量的联合分布是

{\displaystyle p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )=\prod _{j=1}^{N}p(\theta _{i}|\alpha )p(z_{i,j}|\theta _{i})p(\Phi |\beta )p(w_{i,j}|\theta _{z_{i,j}})} $p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )=\prod _{{j=1}}^{{N}}p(\theta _{i}|\alpha )p(z_{{i,j}}|\theta _{i})p(\Phi |\beta )p(w_{{i,j}}|\theta _{{z_{{i,j}}}})$

最终一篇文档的单词分布的最大似然估计可以通过将上式的{\displaystyle \theta _{i}} $\theta _{i}$ 以及{\displaystyle \Phi } $\Phi$ 进行积分和对{\displaystyle z_{i}} $z_{i}$ 进行求和得到

{\displaystyle p(w_{i}|\alpha ,\beta )=\int _{\theta _{i}}\int _{\Phi }\sum _{z_{i}}p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )} $p(w_{i}|\alpha ,\beta )=\int _{{\theta _{i}}}\int _{{\Phi }}\sum _{{z_{i}}}p(w_{i},z_{i},\theta _{i},\Phi |\alpha ,\beta )$

根据{\displaystyle p(w_{i}|\alpha ,\beta )} $p(w_{i}|\alpha ,\beta )$ 的最大似然估计，最终可以通过吉布斯采样等方法估计出模型中的参数。

使用吉布斯采样估计LDA参数[编辑]

在LDA最初提出的时候，人们使用EM算法进行求解，后来人们普遍开始使用较为简单的Gibbs Sampling，具体过程如下：

首先对所有文档中的所有词遍历一遍，为其都随机分配一个主题，即z_m,n=k~Mult(1/K),其中m表示第m篇文档，n表示文档中的第n个词，k表示主题，K表示主题的总数，之后将对应的n^(k)_m+1, n_m+1, n^(t)_k+1, n_k+1, 他们分别表示在m文档中k主题出现的次数，m文档中主题数量的和，k主题对应的t词的次数，k主题对应的总词数。
之后对下述操作进行重复迭代。
对所有文档中的所有词进行遍历，假如当前文档m的词t对应主题为k，则n^(k)_m-1, n_m-1, n^(t)_k-1, n_k-1, 即先拿出当前词，之后根据LDA中topic sample的概率分布sample出新的主题，在对应的n^(k)_m, n_m, n^(t)_k, n_k上分别+1。

{\displaystyle p(z_{i}=k|z_{-i},w)} $p(z_{i}=k|z_{{-i}},w)$ ∝{\displaystyle (n_{k,-i}^{(t)}+\beta _{t})(n_{m,-i}^{(k)}+\alpha _{k})/(\sum _{t=1}^{V}n_{k,-i}^{(t)}+\beta _{t})} $(n_{{k,-i}}^{{(t)}}+\beta _{t})(n_{{m,-i}}^{{(k)}}+\alpha _{k})/(\sum _{{t=1}}^{{V}}n_{{k,-i}}^{{(t)}}+\beta _{t})$