LDA(Latent Dirichlet Allocation)主题模型算法

最新推荐文章于 2024-05-08 13:55:11 发布

lionzl

最新推荐文章于 2024-05-08 13:55:11 发布

阅读量856

点赞数

分类专栏： Algorithm

Algorithm 专栏收录该内容

102 篇文章 1 订阅

订阅专栏

LDA整体流程

先定义一些字母的含义：

文档集合D，topic集合T
D中每个文档d看作一个单词序列< w1,w2,...,wn >，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响）
D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC）

LDA以文档集合D作为输入（会有切词，去停用词，取词干等常见的预处理，略去不表），希望训练出的两个结果向量（设聚成k个Topic，VOC中共包含m个词）：

对每个D中的文档d，对应到不同topic的概率θd < pt1,..., ptk >，其中，pti表示d对应T中第i个topic的概率。计算方法是直观的，pti=nti/n，其中nti表示d中对应第i个topic的词的数目，n是d中所有词的总数。
对每个T中的topic t，生成不同单词的概率φt < pw1,..., pwm >，其中，pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观，pwi=Nwi/N，其中Nwi表示对应到topic t的VOC中第i个单词的数目，N表示所有对应到topic t的单词总数。

LDA的核心公式如下：

p(w|d) = p(w|t)*p(t|d)

直观的看这个公式，就是以Topic作为中间层，可以通过当前的θd和φt给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到，p(w|t)利用φt计算得到。
实际上，利用当前的θd和φt，我们可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d)，然后根据这些结果来更新这个词应该对应的topic。然后，如果这个更新改变了这个单词所对应的Topic，就会反过来影响θd和φt。

LDA学习过程
LDA算法开始时，先随机地给θd和φt赋值（对所有的d和t）。然后上述过程不断重复，最终收敛到的结果就是LDA的输出。再详细说一下这个迭代的学习过程：
1）针对一个特定的文档ds中的第i单词wi，如果令该单词对应的topic为tj，可以把上述公式改写为：
pj(wi|ds) = p(wi|tj)*p(tj|ds)
先不管这个值怎么计算（可以先理解成直接从θds和φtj中取对应的项。实际没这么简单，但对理解整个LDA流程没什么影响，后文再说）。
2）现在我们可以枚举T中的topic，得到所有的pj(wi|ds)，其中j取值1~k。然后可以根据这些概率值结果为ds中的第i个单词wi选择一个topic。最简单的想法是取令pj(wi|ds)最大的tj（注意，这个式子里只有j是变量），即
argmax[j]pj(wi|ds)
当然这只是一种方法（好像还不怎么常用），实际上这里怎么选择t在学术界有很多方法，我还没有好好去研究。
3）然后，如果ds中的第i个单词wi在这里选择了一个与原先不同的topic，就会对θd和φt有影响了（根据前面提到过的这两个向量的计算公式可以很容易知道）。它们的影响又会反过来影响对上面提到的p(w|d)的计算。对D中所有的d中的所有w进行一次p(w|d)的计算并重新选择topic看作一次迭代。这样进行n次循环迭代之后，就会收敛到LDA所需要的结果了。

也说说LDA（Latent Dirichlet Allocation）——理论篇

[本文链接：http://www.cnblogs.com/breezedeus/archive/2013/01/20/2868930.html，转载请注明出处。]

LDA是个generative model，它首先从Dirichlet分布Dir(β)中抽取每个topic对应的参数，然后语料集D中第j篇文档的产生方式如下：

1. 选择文档长度： N ~ Poission(ξ) ；

2. 选择文档参数： θ ~ Dir(α) ；

3. 按照以下方式选取文档中的每个词：

(a) 选择一个topic：

(b) 从W个词中选取出此词：

LDA的图表示如下，其中z、θ和Φ为隐藏变量，α和β为超参数。

利用上面LDA的产生假设，可以得到x、z、θ和Φ的联合分布为：

其中，和。

为了最大化，常用的方法就是基于Variational Bayes（简称VB，也叫Variational EM）的mean field近似方法，这也是LDA最初提出时作者使用的求解方法[1]。这种方法在Graphical models用的很多，不熟悉的同学可以参考我在学校时写的一个介绍pdf。记z、θ和Φ的后验分布的mean fields近似为：

其中为Multinomial分布，而都是Dirichlet分布。容易验证下面的不等式成立：

其中。

VB通过最小化variational free energy 来获得中对应的参数估计：

其中为digamma函数。

上面最后面那个式子里有一个很重要的地方需要说明下。我们之前的产生模型里，在一个文档里，不同位置的相同词（i为第几个词的下标）是可能有不同的后验分布的，但从上面最后的公式中可以看出式子右边与i有关的只有，也即只与第i个位置的具体词是什么有关。所以在使用VB求解时，我们只需要考虑与具体词相关的，这样在一个文档中多次重复的词只需要算一遍就行了。详细的推导可见[1]。

之后，又有很多工作提出了一些其他求解方法[2, 3, 4]。例如[2]中作者提出的Collapsed Gibbs Sampling (CGS) 算法中，首先把隐变量θ和Φ积掉，然后得到如下x和z的联合分布：

然后在固定其他变量值的条件下，的条件概率为：

其中的¬ij表示在对应计算中删除和带来的影响。通过这个条件概率式子，再利用Gibbs Sampling方法进行迭代抽样，最终我们可以得到需要的参数估计值。详细的推导可见[2, 9]。

Gibbs Sampling的问题是收敛比较慢，而且很难判断何时已达到收敛。[3]中作者建议使用VB代替[2]中的Gibbs Sampling进行求解（所以称为Collapsed VB，简称CVB），也即最小化：

对应的参数估计为：

精确计算上式中的期望项计算量比较大。因为，所以可以把它看成是多个Bernoulli分布的和，进而用Gaussian分布就可以很好地近似它。其Gaussian近似的均值和方差分别为：

另一方面，对log(α+x)利用Taylor展开到第二项作为它的近似：

融合这两个近似，得到如下近似：

把这个近似带入到前面的表达式中，得到：

[5]中作者建议在CVB中对log(α+x)进行近似时只使用一阶近似，也即：

从而推导出下面的参数公式：

这个方法被称为CVB0。

在获得了后，CVB和CVB0使用与VB中相同的表达式获得隐藏变量θ和Φ对应的后验分布。所以，测试集的概率可以使用下式计算得到：

注意，上面第一个式子就是根据LDA的模型产生方式获得的，只是对应的分布换成了后验分布。详细的推导可见[3]。

[5]中作者对以上各种算法做了比较详细的比较，他们发现在超参数α和β选取得比较合适时，这些算法的效果差别并不大。较之其他算法，CVB0需要的内存量和计算量都占优，所以[5]中作者最终推荐实际应用中使用CVB0。最近几年又有些工作进一步探讨了不同情况下（如在线学习）如何高效地学习LDA，感兴趣的同学可见[6, 7]。

我们上面的讨论都一直未提及超参数的学习方法，只是简单假设它们是选定不变的。[5]中作者也实验了两种超参数调整的方法：

1. 使用[8]中建议的固定点迭代方法更新超参数，具体可见[5, 7, 8]；

2. 利用测试集，使用网格搜索的方式找出最优的超参数取值。

另外，[1]中作者也建议使用Newton-Raphson方法来学习超参数的取值。

[References]

[1] Blei, D., Ng, A., and Jordan,M. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022.

[2] T. L. Grifﬁths and M. Steyvers. Finding scientiﬁc topics. In PNAS, 2004.

[3] YeeWhye Teh, David Newman, and MaxWelling. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation. In Advances in Neural Information Processing Systems 19, 2007.

[4] Thomas Minka and John Laffert. Expectation-Propagation for the Generative Aspect Model, 2002.

[5] A. Asuncion, M. Welling, P. Smyth, and Y. W. Teh. On smoothing and inference for topic models. In Proceedings of the International Conference on Uncertainty in Artiﬁcial Intelligence, 2009.

[6] Matthew D. Hoffman, David M. Blei and Francis Bac. Online Learning for Latent Dirichlet Allocation, 2010.

[7] Issei Sato, Kenichi Kurihara and Hiroshi Nakagawa. Deterministic Single-Pass Algorithm for LDA, 2010.

[8] Thomas P. Minka. Estimating a dirichlet distribution. Technical report, Microsoft, 2000.

[9] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2005.

lionzl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LDA(Latent Dirichlet Allocation)主题模型算法

LDA整体流程先定义一些字母的含义：文档集合D，topic集合TD中每个文档d看作一个单词序列，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响）D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC）LDA以文档集合D作为输入（会有切词，去停用词，取词干等常见的预处理，略去不表），希望训练出的两个结果
复制链接

扫一扫