通俗理解LDA主题模型

最新推荐文章于 2024-08-19 20:14:18 发布

画面太乱了

最新推荐文章于 2024-08-19 20:14:18 发布

阅读量450

点赞数 2

本文链接：https://blog.csdn.net/gdfyug/article/details/83757106

版权

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

通俗理解LDA主题模型

0 前言

印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是因为这篇文档的前序铺垫太长（现在才意识到这些“铺垫”都是深刻理解LDA 的基础，但如果没有人帮助初学者提纲挈领、把握主次、理清思路，则很容易陷入LDA的细枝末节之中），还是因为其中的数学推导细节太多，导致一直没有完整看完过。

2013年12月，在我组织的Machine Learning读书会第8期上，@夏粉_百度讲机器学习中排序学习的理论和算法研究，@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型，当时貌似只记得沈博讲了一个汪峰写歌词的例子，依然没有理解LDA到底是怎样一个东西（但理解了LDA之后，再看沈博主题模型的PPT会很赞）。

直到昨日下午，机器学习班 第12次课上，邹讲完LDA之后，才真正明白LDA原来是那么一个东东！上完课后，趁热打铁，再次看LDA数学八卦，发现以前看不下去的文档再看时竟然一路都比较顺畅，一口气看完大部。看完大部后，思路清晰了，知道理解LDA，可以分为下述5个步骤：

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA（在本文第4 部分阐述）
一个采样：Gibbs采样

本文便按照上述5个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。同时，本文基于邹讲LDA的PPT、rickjin的LDA数学八卦及其它参考资料写就，可以定义为一篇学习笔记或课程笔记，当然，后续不断加入了很多自己的理解。若有任何问题，欢迎随时于本文评论下指出，thanks。

1 gamma函数

1.0 整体把握LDA

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），本文讲后者。

另外，我先简单说下LDA的整体思想，不然我怕你看了半天，铺了太长的前奏，却依然因没见到LDA的影子而显得“心浮气躁”，导致不想再继续看下去。所以，先给你吃一颗定心丸，明白整体框架后，咱们再一步步抽丝剥茧，展开来论述。

按照wiki上的介绍，LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

人类是怎么生成文档的呢？LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题：Arts、Budgets、Children、Education，然后通过学习训练，获取每个主题Topic对应的词语。如下图所示：

然后以一定的概率选取上述某个主题，再以一定的概率选取那个主题下的某个单词，不断的重复这两步，最终生成如下图所示的一篇文章（其中不同颜色的词语分别对应上图中不同主题下的词）：

而当我们看到一篇文章后，往往喜欢推测这篇文章是如何生成的，我们可能会认为作者先确定这篇文章的几个主题，然后围绕这几个主题遣词造句，表达成文。

LDA就是要干这事：根据给定的一篇文档，反推其主题分布。

通俗来说，可以假定认为人类是根据上述文档生成过程写成了各种各样的文章，现在某小撮人想让计算机利用LDA干一件事：你计算机给我推测分析网络上各篇文章分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。

然，就是这么一个看似普通的LDA，一度吓退了不少想深入探究其内部原理的初学者。难在哪呢，难就难在LDA内部涉及到的数学知识点太多了。

在LDA模型中，一篇文档生成的方式如下：

从狄利克雷分布中取样生成文档 i 的主题分布
从主题的多项式分布中取样生成文档i第 j 个词的主题
从狄利克雷分布中取样生成主题对应的词语分布
从词语的多项式分布中采样最终生成词语

其中，类似Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

此外，LDA的图模型结构如下图所示（类似贝叶斯网络结构）：

恩，不错，短短6句话整体概括了整个LDA的主体思想！但也就是上面短短6句话，却接连不断或重复出现了二项分布、多项式分布、beta分布、狄利克雷分布（Dirichlet分布）、共轭先验概率分布、取样，那么请问，这些都是啥呢？

这里先简单解释下二项分布、多项分布、beta分布、Dirichlet 分布这4个分布。

二项分布（Binomial distribution）。

二项分布是从伯努利分布推进的。伯努利分布，又称两点分布或0-1分布，是一个离散型的随机分布，其中的随机变量只有两类取值，非正即负{+，-}。而二项分布即重复n次的伯努利试验，记为。简言之，只做一次实验，是伯努利分布，重复做了n次，是二项分布。二项分布的概率密度函数为：

对于k = 0, 1, 2, ..., n，其中的是二项式系数（这就是二项分布的名称的由来），又记为。回想起高中所学的那丁点概率知识了么：想必你当年一定死记过这个二项式系数就是。

多项分布，是二项分布扩展到多维的情况。

多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3...,k）。比如投掷6个面的骰子实验，N次实验结果服从K=6的多项分布。其中

多项分布的概率密度函数为：

Beta分布，二项分布的共轭先验分布。

给定参数和，取值范围为[0,1]的随机变量 x 的概率密度函数：

其中：

，。

注：便是所谓的gamma函数，下文会具体阐述。

Dirichlet分布，是beta分布在高维度上的推广。

Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙：

其中

至此，我们可以看到二项分布和多项分布很相似，Beta分布和Dirichlet 分布很相似，而至于“Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布”这点在下文中说明。

OK，接下来，咱们就按照本文开头所说的思路：“一个函数：gamma函数，四个分布：二项分布、多项分布、beta分布、Dirichlet分布，外加一个概念和一个理念：共轭先验和贝叶斯框架，两个模型：pLSA、LDA（文档-主题，主题-词语），一个采样：Gibbs采样”一步步详细阐述，争取给读者一个尽量清晰完整的LDA。

（当然，如果你不想深究背后的细节原理，只想整体把握LDA的主体思想，可直接跳到本文第4 部分，看完第4部分后，若还是想深究背后的细节原理，可再回到此处开始看）

1.1 gamma函数

咱们先来考虑一个问题（此问题1包括下文的问题2-问题4皆取材自LDA数学八卦）：

问题1 随机变量
把这n 个随机变量排序后得到顺序统计量
然后请问的分布是什么。

为解决这个问题，可以尝试计算落在区间[x,x+Δx]的概率。即求下述式子的值：

首先，把 [0,1] 区间分成三段 [0,x)，[x,x+Δx]，(x+Δx,1]，然后考虑下简单的情形：即假设n 个数中只有1个落在了区间 [x,x+Δx]内，由于这个区间内的数X(k)是第k大的，所以[0,x)中应该有 k−1 个数，(x+Δx,1] 这个区间中应该有n−k 个数。如下图所示：

从而问题转换为下述事件E：

对于上述事件E，有：

其中，o(Δx)表示Δx的高阶无穷小。显然，由于不同的排列组合，即n个数中有一个落在 [x,x+Δx]区间的有n种取法，余下n−1个数中有k−1个落在[0,x)的有种组合，所以和事件E等价的事件一共有个。

如果有2个数落在区间[x,x+Δx]呢？如下图所示：

类似于事件E，对于2个数落在区间[x,x+Δx]的事件E’：

有：

从上述的事件E、事件E‘中，可以看出，只要落在[x,x+Δx]内的数字超过一个，则对应的事件的概率就是 o(Δx)。于是乎有：

从而得到的概率密度函数为：

至此，本节开头提出的问题得到解决。然仔细观察的概率密度函数，发现式子的最终结果有阶乘，联想到阶乘在实数上的推广函数：

两者结合是否会产生奇妙的效果呢？考虑到具有如下性质：

故将代入到的概率密度函数中，可得：

然后取，，转换得到：

如果熟悉beta分布的朋友，可能会惊呼：哇，竟然推出了beta分布！

2 beta分布

2.1 beta分布

在概率论中，beta是指一组定义在区间的连续概率分布，有两个参数和，且。

beta分布的概率密度函数是：

其中的便是函数：

随机变量X服从参数为的beta分布通常写作：。

2.2 Beta-Binomial 共轭

回顾下1.1节开头所提出的问题：“问题1 随机变量，把这n 个随机变量排序后得到顺序统计量，然后请问的分布是什么。” 如果，咱们要在这个问题的基础上增加一些观测数据，变成问题2：

，对应的顺序统计量是，需要猜测；
，中有个比p小，个比大；
那么，请问的分布是什么。

根据“Yi中有个比小，个比大”，换言之，Yi中有个比小，个比大，所以是中第大的数。

根据1.1节最终得到的结论“只要落在[x,x+Δx]内的数字超过一个，则对应的事件的概率就是 o(Δx)”，继而推出事件服从beta分布，从而可知的概率密度函数为：

熟悉贝叶斯方法（不熟悉的没事，参见此文第一部分）的朋友心里估计又犯“嘀咕”了，这不就是贝叶斯式的思考过程么？

为了猜测，在获得一定的观测数据前，我们对的认知是：，此称为的先验分布；
然后为了获得这个结果“ 中有个比p小，个比大”，针对是做了次贝努利实验，所以服从二项分布；
在给定了来自数据提供的的知识后，的后验分布变为。

回顾下贝叶斯派思考问题的固定模式：

先验分布 + 样本信息后验分布

上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后，人们对的认知为。

类比到现在这个问题上，我们也可以试着写下：

其中对应的是二项分布的计数。

更一般的，对于非负实数和，我们有如下关系

针对于这种观测到的数据符合二项分布，参数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial共轭。换言之，Beta分布是二项式分布的共轭先验概率分布。

二项分布和Beta分布是共轭分布意味着，如果我们为二项分布的参数p选取的先验分布是Beta分布，那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布。

此外，如何理解参数和所表达的意义呢？、可以认为形状参数，通俗但不严格的理解是，和共同控制Beta分布的函数“长的样子”：形状千奇百怪，高低胖瘦，如下图所示：

2.3 共轭先验分布

什么又是共轭呢？轭的意思是束缚、控制，共轭从字面上理解，则是共同约束，或互相约束。

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

比如，某观测数据服从概率分布P(θ)时，当观测到新的X数据时，我们一般会遇到如下问题：

可否根据新观测数据X，更新参数θ？
根据新观测数据可以在多大程度上改变参数θ，即

当重新估计θ的时候，给出新参数值θ的新概率分布，即P(θ|x)。

事实上，根据根据贝叶斯公式可知：

举个例子。投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

其共轭先验为beta分布，具有两个参数和，称为超参数（hyperparameters）。且这两个参数决定了θ参数，其Beta分布形式为

然后计算后验概率

归一化这个等式后会得到另一个Beta分布，从而证明了Beta分布确实是伯努利分布的共轭先验分布。

2.4 从beta分布推广到Dirichlet 分布

接下来，咱们来考察beta分布的一个性质。

如果，则有：

注意到上式最后结果的右边积分

其类似于概率分布，而对于这个分布有

从而求得

的结果为

最后将此结果带入的计算式，得到：

最后的这个结果意味着对于Beta 分布的随机变量，其均值（期望）可以用来估计。此外，狄利克雷Dirichlet 分布也有类似的结论，即如果，同样可以证明有下述结论成立：

那什么是Dirichlet 分布呢？简单的理解Dirichlet 分布就是一组连续多变量概率分布，是多变量普遍化的beta分布。为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷（Peter Gustav Lejeune Dirichlet）而命名。狄利克雷分布常作为贝叶斯统计的先验概率。

3 Dirichlet 分布

3.1 Dirichlet 分布

根据wikipedia上的介绍，维度K ≥ 2（x1,x2…xK-1维，共K个）的狄利克雷分布在参数α1, ..., αK > 0上、基于欧几里得空间RK-1里的勒贝格测度有个概率密度函数，定义为：

其中，相当于是多项beta函数

且

此外，x1+x2+…+xK-1+xK=1，x1,x2…xK-1>0，且在(K-1)维的单纯形上，其他区域的概率密度为0。

当然，也可以如下定义Dirichlet 分布

其中的称为Dirichlet 分布的归一化系数：

且根据Dirichlet分布的积分为1（概率的基本性质），可以得到：

3.2 Dirichlet-Multinomial 共轭

下面，在2.2节问题2的基础上继续深入，引出问题3。

，
排序后对应的顺序统计量,
问的联合分布是什么？

为了简化计算，取x3满足x1+x2+x3=1,但只有x1,x2是变量，如下图所示：

从而有：

继而得到于是我们得到的联合分布为：

观察上述式子的最终结果，可以看出上面这个分布其实就是3维形式的 Dirichlet 分布

令，于是分布密度可以写为

这个就是一般形式的3维 Dirichlet 分布，即便延拓到非负实数集合，以上概率分布也是良定义的。

将Dirichlet分布的概率密度函数取对数，绘制对称Dirichlet分布的图像如下图所示（截取自wikipedia上）：

上图中，取K=3，也就是有两个独立参数x1,x2，分别对应图中的两个坐标轴，第三个参数始终满足x3=1-x1-x2且α1=α2=α3=α，图中反映的是参数α从α=(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时的概率对数值的变化情况。

为了论证Dirichlet分布是多项式分布的共轭先验概率分布，下面咱们继续在上述问题3的基础上再进一步，提出问题4。

问题4 ，排序后对应的顺序统计量
令,,（此处的p3非变量，只是为了表达方便），现在要猜测；
，Yi中落到，，三个区间的个数分别为 m1,m2,m3，m=m1+m2+m3；
问后验分布的分布是什么。

为了方便讨论，记，及，根据已知条件“，Yi中落到，，三个区间的个数分别为 m1,m2”，可得、分别是这m+n个数中第大、第大的数。于是，后验分布应该为，即一般化的形式表示为：。

同样的，按照贝叶斯推理的逻辑，可将上述过程整理如下：

我们要猜测参数，其先验分布为；
数据Yi落到三个区间，，的个数分别为，所以服从多项分布
在给定了来自数据提供的知识后，的后验分布变为

上述贝叶斯分析过程的直观表述为：

令，可把从整数集合延拓到实数集合，从而得到更一般的表达式如下：

针对于这种观测到的数据符合多项分布，参数的先验分布和后验分布都是Dirichlet 分布的情况，就是Dirichlet-Multinomial 共轭。换言之，至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布。

意味着，如果我们为多项分布的参数p选取的先验分布是Dirichlet分布，那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然服从Dirichlet分布。

进一步，一般形式的Dirichlet 分布定义如下：

而对于给定的和，其多项分布为：

结论是：Dirichlet分布和多项分布是共轭关系。

4 主题模型LDA

在开始下面的旅程之前，先来总结下我们目前所得到的最主要的几个收获：

通过上文的第2.2节，我们知道beta分布是二项式分布的共轭先验概率分布：
- “对于非负实数和，我们有如下关系

其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布，参数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial 共轭。”

通过上文的3.2节，我们知道狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布：
- “ 把从整数集合延拓到实数集合，从而得到更一般的表达式如下：

针对于这种观测到的数据符合多项分布，参数的先验分布和后验分布都是Dirichlet 分布的情况，就是 Dirichlet-Multinomial 共轭。 ”

以及贝叶斯派思考问题的固定模式：
- 先验分布 + 样本信息后验分布
上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后，人们对的认知为。
顺便提下频率派与贝叶斯派各自不同的思考方式：
- 频率派把需要推断的参数θ看做是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；
- 而贝叶斯派的观点则截然相反，他们认为待估计的参数是随机变量，服从一定的分布，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。

OK，在杀到终极boss——LDA模型之前，再循序渐进理解基础模型：Unigram model、mixture of unigrams model，以及跟LDA最为接近的pLSA模型。

为了方便描述，首先定义一些变量：

表示词，表示所有单词的个数（固定值）
表示主题，是主题的个数（预先给定，固定值）
表示语料库，其中的是语料库中的文档数（固定值）
表示文档，其中的表示一个文档中的词数（随机变量）

4.1 各个基础模型

4.1.1 Unigram model

对于文档，用表示词的先验概率，生成文档的概率为：

其图模型为（图中被涂色的w表示可观测变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

或为：

unigram model假设文本中的词服从Multinomial分布，而我们已经知道Multinomial分布的先验分布为Dirichlet分布。
上图中的表示在文本中观察到的第n个词，n∈[1,N]表示该文本中一共有N个单词。加上方框表示重复，即一共有N个这样的随机变量。其中，p和α是隐含未知变量：

p是词服从的Multinomial分布的参数
α是Dirichlet分布（即Multinomial分布的先验分布）的参数。

一般α由经验事先给定，p由观察到的文本中出现的词学习得到，表示文本中出现每个词的概率。

4.1.2 Mixture of unigrams model

该模型的生成过程是：给某个文档先选择一个主题，再根据该主题生成文档，该文档中的所有词都来自一个主题。假设主题有，生成文档的概率为：

其图模型为（图中被涂色的w表示可观测变量，未被涂色的z表示未知的隐变量，N表示一篇文档中总共N个单词，M表示M篇文档）：

4.2 PLSA模型

啊哈，长征两万五，经过前面这么长的铺垫，终于快要接近LDA模型了！因为跟LDA模型最为接近的便是下面要阐述的这个pLSA模型，理解了pLSA模型后，到LDA模型也就一步之遥——给pLSA加上贝叶斯框架，便是LDA。

4.2.1 pLSA模型下生成文档

OK，在上面的Mixture of unigrams model中，我们假定一篇文档只有一个主题生成，可实际中，一篇文章往往有多个主题，只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中，往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中，文档是怎样被生成的呢？

假设你要写M篇文档，由于一篇文档由各个不同的词组成，所以你需要确定每篇文档里每个位置上的词。

再假定你一共有K个可选的主题，有V个可选的词，咱们来玩一个扔骰子的游戏。

1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子（扔此骰子能得到K个主题中的任意一个），和K个V面的“主题-词项” 骰子（每个骰子对应一个主题，K个骰子对应之前的K个主题，且骰子的每一面对应要选择的词项，V个面对应着V个可选的词）。
- 比如可令K=3，即制作1个含有3个主题的“文档-主题”骰子，这3个主题可以是：教育、经济、交通。然后令V = 3，制作3个有着3面的“主题-词项”骰子，其中，教育主题骰子的3个面上的词可以是：大学、老师、课程，经济主题骰子的3个面上的词可以是：市场、企业、金融，交通主题骰子的3个面上的词可以是：高铁、汽车、飞机。

2. 每写一个词，先扔该“文档-主题”骰子选择主题，得到主题的结果后，使用和主题结果对应的那颗“主题-词项”骰子，扔该骰子选择要写的词。
- 先扔“文档-主题”的骰子，假设（以一定的概率）得到的主题是教育，所以下一步便是扔教育主题筛子，（以一定的概率）得到教育主题筛子对应的某个词：大学。
  - 上面这个投骰子产生词的过程简化下便是：“先以一定的概率选取主题，再以一定的概率选取词”。事实上，一开始可供选择的主题有3个：教育、经济、交通，那为何偏偏选取教育这个主题呢？其实是随机选取的，只是这个随机遵循一定的概率分布。比如可能选取教育主题的概率是0.5，选取经济主题的概率是0.3，选取交通主题的概率是0.2，那么这3个主题的概率分布便是{教育：0.5，经济：0.3，交通：0.2}，我们把各个主题z在文档d中出现的概率分布称之为主题分布，且是一个多项分布。
  - 同样的，从主题分布中随机抽取出教育主题后，依然面对着3个词：大学、老师、课程，这3个词都可能被选中，但它们被选中的概率也是不一样的。比如大学这个词被选中的概率是0.5，老师这个词被选中的概率是0.3，课程被选中的概率是0.2，那么这3个词的概率分布便是{大学：0.5，老师：0.3，课程：0.2}，我们把各个词语w在主题z下出现的概率分布称之为词分布，这个词分布也是一个多项分布。
  - 所以，选主题和选词都是两个随机的过程，先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后从该教育主题对应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。
3. 最后，你不停的重复扔“文档-主题”骰子和”主题-词项“骰子，重复N次（产生N个词），完成一篇文档，重复这产生一篇文档的方法M次，则完成M篇文档。

上述过程抽象出来即是PLSA的文档生成模型。在这个过程中，我们并未关注词和词之间的出现顺序，所以pLSA是一种词袋方法。具体说来，该模型假设一组共现(co-occurrence)词项关联着一个隐含的主题类别。同时定义：

表示海量文档中某篇文档被选中的概率。
表示词在给定文档中出现的概率。
- 怎么计算得到呢？针对海量文档，对所有文档进行分词后，得到一个词汇列表，这样每篇文档就是一个词语的集合。对于每个词语，用它在文档中出现的次数除以文档中词语总的数目便是它在文档中出现的概率。
表示具体某个主题在给定文档下出现的概率。
表示具体某个词在给定主题下出现的概率，与主题关系越密切的词，其条件概率越大。