LDA主题模型2——文本建模与Gibbs采样求解

最新推荐文章于 2023-03-07 11:25:24 发布

端坐的小王子

最新推荐文章于 2023-03-07 11:25:24 发布

阅读量995

点赞数 3

分类专栏：推荐系统 NLP 文章标签： nlp 数据挖掘自然语言处理算法

本文链接：https://blog.csdn.net/u012290039/article/details/105786846

版权

推荐系统同时被 2 个专栏收录

21 篇文章 20 订阅

订阅专栏

NLP

6 篇文章 1 订阅

订阅专栏

相信很多人第一次看到LDA算法都会头大，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。

通篇内容比较多，但是总结的还算详细～～～

上一篇 LDA主题模型1——数学基础
下一篇 LDA主题模型3——EM算法求解

1，LDA初步理解

隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA) 是被广泛使用的主题模型。由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。在NLP、推荐系统隐语义分析相关方法中经常提到。本文将会详细的剖析LDA算法原理。

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

Ok，现在我们知道要解决的问题了：给出一篇文档，找出其主题的概率分布。如何做呢？文档建模，我们需要建立一个文章生成模型，以及文章生成过程中的模型参数，就能得到文档的主题分布，所以我们首先要确定LDA主题模型如何描述文档的生成过程的，然后是如何计算模型参数的。

2，文本建模

为了深入的理解LDA建模过程及求解方法，我们简单对比一下其他的文本建模思路：

1）文本中的词符合一定的分布，通常我们认为是多项式分布 $\sim Mult(\vec{n} |\vec{p})$ ，在多项式模型下生成一个个的词。——unigram model
2）贝叶斯的角度的unigram model，我们从贝叶斯概率知识中了解到，数据是有先验的，数据本身符合多项式分布，为了方便求解，我们认为数据的先验是其共轭分布（Dirichlet分布）。——unigram model + 贝叶斯
3）以上两种文本数据模型都没有涉及到主题的概念。假设一篇文章符合一定的主题分布，文章中的每个词都是在该主题分布下生成的。那么相对于文本建模方法1），这里就有两个多项式模型。文章生成主题的多项式模型，主题生成词汇的多项式模型。——PLSA
4）再次从贝叶斯角度来看，PLSA的每个多项式模型都应该有一个Dirichlet先验。——LDA

下边我们逐个来对比总结。

2.1 unigram model

在Unigram Model中，我们采用词袋模型，假设了文档之间相互独立，文档中的词汇之间相互独立。假设我们的词典中一共有 V 个词，那么最简单的Unigram Model是V个词是在多项式概率模型下产生的，文章是词上的概率分布。

unigram model 生成过程

我们明确几个概念：
1）词汇数据样本符合多项式分布： $\sim Mult(\vec{n} |\vec{p})$ ，其中 $\vec{p}=(p_1,p_2,...,p_V)$ , 表示每个词的概率。
2）一篇文章有n个词w，彼此相互独立，表示为： $\vec{w}=(w_1,w_2,...,w_n)$

在这样的条件下生成这样一篇文章概率为：
$p(\vec{w})=p(w_1,w_2,...,w_n)=p(w_1)p(w_2)...p(w_n)$

那么对于有 $m$ 篇文档的整个语料库而言，假设共有词频 $N$ ，每个词 $w_k$ 的词频为 $n_k$ ，那么整个语料库的概率为：
$p(W)=p(\vec{w_1})p(\vec{w_2})...p(\vec{w_m})=\prod_{k=1}^{K}p_{k}^{n_k}$

unigram model 模型参数求解

模型建好了，参数就是概率向量 $p_k$ ，通过最大似然估计，很容易计算出估计值:
$\hat{p}_k=\frac{n_k}{N }$

如果这个结果不好思考，建议参考LR的最大似然估计，这里一个简答的办法就是将N引入上面的语料库概率公式，将概率更换为p、1-p，转化成二项式形式，即可得到。

2.2 unigram model + 贝叶斯

在贝叶斯学派看来，数据要有先验。生成这篇文章的多项式分布参数 $\vec{p}$ 并不是固定唯一的，所以现在我们有很多个多项式分布，这些分布的概率参数 $\vec{p}$ 符合Dirichlet分布 $P(\vec{p})$ ，每个分布都可以生成V个词，组成这样一篇文章。

生成过程

unigram model 模型中我们定义 $p (W)$ 为语料库数据的概率，实际上其更加准确的表达为 $p(W|\vec{p})$ 。考虑贝叶斯的先验，那么语料库的的数据概率为：
$p(W)=\int p(W|\vec{p})p(\vec{p})d\vec{p}$

Dirichlet分布：
$\begin{aligned} Dirichlet(\vec{p}|\vec{\alpha})&=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\prod_{k=1}^{K} \Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}\\ \end{aligned}$

1）语料库数据的生成概率：

$\begin{aligned} p(W|\alpha) &=\int p(W|\vec{p})p(\vec{p}|\alpha)d\vec{p}\\ &=\int \prod_{k=1}^{K}p_{k}^{n_k}Dir(\vec{p}|\vec{\alpha})d\vec{p}\\ &=\frac{1}{\Delta(\vec{\alpha})}\int \prod_{k=1}^{K}p_k^{n_k} \prod_{k=1}^{K}p_k^{\alpha_k-1}d\vec{p}\\ &=\frac{\Delta(\vec{n}+\vec{\alpha})}{\Delta(\vec{\alpha})} \end{aligned}$

$\Delta(\vec{\alpha})$ 表示Dirichlet分布的归一化系数，详细解释参考上一篇博文。我们得到了语料库数据的生成概率，它与Dirichlet分布参数 $\alpha$ 以及数据的词频 $n$ 有关。

2）后验概率：

有一个问题我们没有解决，数据的概率参数 $\vec{p}$ 的估计值是多少？虽然多项式分布的参数p符合Dirichlet先验，但是对于文章本身而言是有其期望值的，现在给定一篇文章，如何估计这个多项式分布的参数 $\vec{p}$ 呢？

我们知道 $\vec{p}$ 在先验分布为Dirichlet分布，先验分布是根据经验得到的，不能只根据Dirichlet先验来估计数据，根据贝叶斯理论，在观察到一篇文档数据后，数据会对先验进行修正，这里后验概率为：

$\begin{aligned} Dir(\vec{p}|W,\vec{n}+\vec{\alpha}) &=\frac{1}{\Delta(\vec{n}+\vec{\alpha})}\prod_{k=1}^{K}p_k^{n_k+\alpha_k-1}\\ \end{aligned}$

有了数据参数，我们可以用平均值作为估计值，估计现在的多项式分布的参数 $\vec{p}$ 为：
$E(Dir(\vec{p}|W,\vec{n}+\vec{\alpha})) =(\frac{n_1+\alpha_1}{\sum_{k=1}^{V}n_k+\alpha_k},\frac{n_2+\alpha_2}{\sum_{k=1}^{V}n_k+\alpha_k},...,\frac{n_V+\alpha_V}{\sum_{k=1}^{V}n_k+\alpha_k})$

那么：
$\hat{p}_i=\frac{n_i+\alpha_i}{\sum_{k=1}^{V}n_k+\alpha_k}$

2.3 PLSA模型

Unigram Model模型中，没有考虑主题词这个概念。我们写文章时，写的文章都是关于某一个主题的，不是满天胡乱的写，比如一个财经记者写一篇报道，那么这篇文章大部分都是关于财经主题的，当然，也有很少一部分词汇会涉及到其他主题。所以，PLSA认为生成一篇文档的生成过程如下（对比unigram model的频率视角）：文章先通过多项式分布模型生成可能的主题，再通过主题模型生成样本词汇。

生成过程

PLSA中，也是采用词袋模型，文档和文档之间是独立可交换的，同一个文档内的词也是独立可交换的。现在来定义几个相关的参数：
1）语料库 $C$ 包含 $M$ 篇文档： $C=(d_1,d_2,...,d_M)$
2）对应有 $M$ 个 doc-topic 多项式主题模型： $\vec{\theta}_1,\vec{\theta}_2,...,\vec{\theta}_M$ ，将 $\vec{\theta}$ 看做多项式分布即可，我更倾向于将 $\vec{\theta}$ 看做多项式概率参数 $\vec{q}$ ，每篇文章都有一个主题分布，生成不同的主题。
3） $K$ 个 topic-word 多项式词模型 $\vec{\phi}_1,\vec{\phi}_2,...,\vec{\phi}_K$ ，同理将 $\vec{\phi}$ 看作是多项式分布的表示，进一步，将 $\vec{\phi}$ 看作是多项式概率参数 $\vec{q}$ 更好理解公式。
关于 $M$ 个 doc-topic 多项式主题模型和 $K$ 个 topic-word 多项式词模型的关系有必要强调以下：M表示文章，M个主题模型表示每个文章一个主题模型，至于主题有多少个，这里由多项式参数决定，假设有K个主题，在这篇文章中K个主题都有对应的词，每个词对应哪个主题由K个topic-world词模型表示，所以，一般的，topic-word是在整个语料库都适用的，doc-topic适用于所在的那一篇文章。

PLSA 模型是两层多项式分布的概率模型，那么第 $m$ 篇文档 $d_m$ 中的每个词的生成概率为，词w所在的文章生成不同的主题，不同的主题再次生成词w的概率之和，这里如果把 $\vec{\phi}$ 和 $\vec{\theta}$ 看作概率 $\vec{q}$ 就很方便。
$\begin{aligned} p(w|d_m) &=\sum_{z=1}^{K} p(w|z)p(z|d_m)\\ &=\sum_{z=1}^{K}\phi_{zw}\theta_{wz} \end{aligned}$

那么一篇文章的生成概率为：

$\begin{aligned} p(\vec{w}|d_m) &=\prod_{w=1}^{n}\sum_{z=1}^{K} p(w|z)p(z|d_m)\\ &=\prod_{w=1}^{n}\sum_{z=1}^{K}\phi_{zw}\theta_{wz} \end{aligned}$

模型生成过程已经表达出来了，接下来就是估计参数 $\vec{\phi}$ 和 $\vec{\theta}$ ，相应的解法是EM算法，本篇暂时不做展开。

2.4 LDA主题模型

2.4.1 LDA生成过程

初步认识LDA的生成过程

在这里插入图片描述
LDA的建模过程可以总结为上面这幅图，具体什么意思，我们一步步解析

1，按照先验概率 $p(d_i)$ 选择一篇文档 $d_i$
2，从 $D i r i c h l e t$ 分布 $\alpha$ 中取样生成文档 $d_i$ 的主题分布 $\theta_i$ ，主题分布 $\theta_i$ 由超参数 $\alpha$ 的 $D i r i c h l e t$ 分布生成。
3，从主题的多项式分布 $\theta_i$ 中取样生成文档 $d_i$ 的第 $j$ 个主题 $z_{i,j}$
4，从 $D i r i c h l e t$ 分布 $\eta$ 中取样生成主题 $z_{i,j}$ 对应的词分布 $\phi_{z_{i,j}}$ ，词分布 $\phi_{z_{i,j}}$ 由参数为 $\eta$ 的 $D i r i c h l e t$ 分布分布生成。
5，从赐予的多项式分布 $\phi_{z_{i,j}}$ 中采样最终生成词语 $w_{i,j}$

（我相信，有些同学对于细节上还是很多问号的。。。不过没关系，这里讲个大概，后面详解分解每一步。）

从以上生成过程可以看出，LDA 在 PLSA 的基础上为主题分布和词分布分别加了两个 Dirichlet 先验。在LDA中，主题分布和词分布是不确定的，LDA的作者们采用的是贝叶斯派的思想，认为它们应该服从一个分布，主题分布和词分布都是多项式分布，因为多项式分布和狄利克雷分布是共轭结构，在LDA中主题分布和词分布使用了Dirichlet分布作为它们的共轭先验分布。也就有了一句广为流传的话 – LDA 就是 PLSA 的贝叶斯化版本。
有两张图，比较好的诠释了两者的区别
在这里插入图片描述

PLSA模型中，文章按照固定概率生成topic，topic按照固定概率生成word。LDA模型中，文章首先要按照dirichlet先验选取一个生成topic的概率分布模型，然后生成topic，topic生成word之前，也要根据dirichlet先验生成一个topic-word的概率分布模型，然后生成word。

LDA生成过程详解

本节我们来剖析LDA生成过程的每一句话，生成公式的每一个符号。
LDA的生成过程分为两步，文档生成主题，主题生成词语，我们来看下主题的生成过程，上公式：

$\begin{aligned} p(\vec{z}_d|\vec{\alpha}) &=\int p(\vec{z}_d|\vec{\theta}_d)p(\vec{\theta}_d|\vec{\alpha})d\vec{\theta}_d\\ &=\int \prod_{k=1}^{K}p_k^{n_d^{(k)}}Dirichlet(\vec{\alpha})d\vec{\theta}_d\\ &=\int \prod_{k=1}^{K}p_k^{n_d^{(k)}}\frac{1}{\Delta{\vec{\alpha}}}\prod_{k=1}^{K}p_k^{\alpha_k-1}d\vec{\theta}_d\\ &=\frac{1}{\Delta{\vec{\alpha}}}\prod_{k=1}^{K}p_k^{n_d^{(k)}+\alpha_k-1}d\vec{\theta}_d\\ &=\frac{\Delta(\vec{n}_d+\vec{\alpha})}{\Delta{\vec{\alpha}}} \end{aligned}$

既然是生成过程，我们要计算的就是数据生成的概率表示，而这个公式计算的就是主题数据的概率表示，而且主题z是符合多项式分布的 $mul(\vec{m}|n,\vec{p})$ ，其先验是Dirichlet分布 $Dir(\vec{p}|\vec{\alpha})$ 。

公式剖析：
1）文档d第n个词汇主题z为k的概率： $p(z_{d_n}^k)=p_k$
2）那么文档d所有词汇数据主题概率： $p(\vec{z}_d)=\prod_{k=1}^{K}p_k^{n_k^d}$
所有主题的意思：文档中的每个词都有对应的主题，每个主题也都有相应的一组词，所以这里 $n_k^d$ 的表示文档d第k个主题的词汇数量。

3）先验的概念：贝叶斯认为数据分布中的概率参数 $\vec{p}$ 是有先验的，这里的先验是dirichlet分布。简单来理解，主题的多项式分布参数 $\vec{p}$ 符合dirichlet分布，所以 $\vec{p}$ 取不同的值是有一定概率的（dirichlet），下图是二维形式的Dirichlet分布（beta分布），即 $\vec{p}$ 的分布， $\vec{p}$ 有无数种可能（下图横坐标，连续的），每个样本p都对应一个主题分布。
在这里插入图片描述

4）贝叶斯公式：那么数据的主题概率就成了在Dirichlet概率分布条件下的二项式分布的结果 $p(\vec{z}_d|\vec{\alpha})=\int p(\vec{z}_d|\vec{\theta}_d)p(\vec{\theta}_d|\vec{\alpha})d\vec{\theta}_d$ 。很多资料表示这里的向量 $\vec{\theta}$ 的含义是主题分布，简单来说，主题z是多项式分布，但具体是那种多项式分布，由 $\vec{\theta}$ 决定，再具体一点，theta-决定的是主题z的多项式分布概率 $\vec{p}$ ， $\vec{p}$ 可以从Dirichlet先验中采样得到。

Ok公式解释完了，整个过程抓住概率 $\vec{p}$ 就可以了，数据（单词）主题的概率是每个单词主题概率 $\vec{p}$ 的连乘，同时 $\vec{p}$ 又是先验决定和生成的，这一点在公式的倒数第三和倒数第二步非常明显。

我们回过头来再次看一下LDA的生成过程：
1，按照先验概率 $p(d_i)$ 选择一篇文档 $d_i$
理解为对某一篇文档进行操作即可
2，从 $D i r i c h l e t$ 分布 $\alpha$ 中取样生成文档 $d_i$ 的主题分布 $\theta_i$ ，主题分布 $\theta_i$ 由超参数 $\alpha$ 的 $D i r i c h l e t$ 分布生成。
什么叫取样生成主题分布 $\theta_i$ ？这里说的这么绕，其实就是， $D i r i c h l e t$ 分布是概率参数 $\vec{q}$ 的分布，然后选择一个 $\vec{q}$ ，作为doc-topic多项式分布的概率参数 $\vec{q}$ ，把这个多项式分布视为 $\theta_i$ 。
3，从主题的多项式分布 $\theta_i$ 中取样生成文档 $d_i$ 的第 $j$ 个主题 $z_{i,j}$
什么叫取样生成主题 $z_{i,j}$ ？多项式分布已经生成了（确定了），根据这个多项式分布进行主题采样，获得一定数量（多项式分布的N，这里是词的数量）的主题。采样完成之后，每个主题的数目n有多有少，就形成了不同主题 $z_k$ 的概率 $p_k^{n_d^{(k)}}$ ，进而得到整体主题的概率 $\prod_{k=1}^{K}p_k^{n_d^{(k)}}$ 。那么接下来要做的也是很清楚了，计算以dirichlet分布为先验的 $z_k$ 得到单词w的概率。然后 $z_k$ 的概率乘上 $z_k$ 得到单词w的概率就是单词w生成概率的一部分，后面有阐述。

所有文档的主题数据概率为：

$p(\vec{z}|\vec{\alpha})=\prod_{d=1}^{M}p(\vec{z}_d|\vec{\alpha})=\prod_{d=1}^{M}\frac{\Delta(\vec{n}_d+\vec{\alpha})}{\Delta{\vec{\alpha}}}$

按照同样方法和思路，可以理解在某一主题下，词的生成过程：

$p(\vec{w}|\vec{z},\vec{\eta})=\prod_{k=1}^{K}p(\vec{w}_k| \vec{z},\vec{\eta})=\prod_{k=1}^{K}\frac{\Delta(\vec{n}_k+\vec{\eta})}{\Delta{\vec{\eta}}}$

那么单词与主题的联合分布概率为：

$\begin{aligned} p(\vec{w},\vec{z}|\vec{\alpha},\vec{\beta}) &=p(\vec{w}|\vec{z},\vec{\eta})p(\vec{z}|\vec{\alpha})\\ &=\prod_{k=1}^{K}\frac{\Delta(\vec{n}_k+\vec{\eta})}{\Delta{\vec{\eta}}}\prod_{d=1}^{M}\frac{\Delta(\vec{n}_d+\vec{\alpha})}{\Delta{\vec{\alpha}}} \end{aligned}$

这个公式可以理解为，先把全部的主题采样生成完毕，然后这样的主题分布（概率）下，进行主题到词的生成（这里先不考虑文章的概念，将topic-word看作是独立的，即整个语料库的）。还可以这样理解，先得到文章生成每个主题的概率，然后计算每个主题生成词的概率，然后以每个主题的概率进行生成词概率的加权。

2.4.2 LDA求解

很明显，我们要求的的是概率参数： $\vec{\theta}_1,\vec{\theta}_2,...,\vec{\theta}_M$ 和 $\vec{\phi}_1,\vec{\phi}_2,...,\vec{\phi}_K$ ，而对于一篇新的文档我们能计算这篇文档的topic分布 $\vec{\theta}$

现在我们得到了主题与词的联合概率分布，如何求解呢？在Gibbs采样的文章中，我们提到，我们可以通过Gibbs采样，在明确条件概率概率分布的情况下，任意概率分布，通过状态转移，使数据分布逐渐稳定成我们想要的联合概率分布形式。那么思路就很明确了，我们要想求出联合概率分布参数，就要先求出条件概率分布，然后通过Gibbs采样使其收敛。

先解释几个参数：
每个单词都对应一个主题，我们用 $z_i$ 表示第 $i$ 个单词， $i$ 是一个二维的下标， $i = (m, n)$ ，对应 $m$ 篇文档的第 $n$ 个词。用 $z_{\urcorner i}$ 表示语料库。 $\urcorner i$ 表示去除下标 $i$ 的词。

Gibbs采样是根据条件概率轮换坐标轴采样逐渐收敛的，ok，这里的坐标轴是什么？坐标轴表示每个维度 $i$ ，这里的维度就是每篇文档的每个单词，每个单词都对应一个主题。那么我们要固定其他单词的主题，对当前单词的主题进行采样。
我们需要求任意一个坐标轴 $i$ 对应的条件分布 $p(z_i|\vec{z}_{\urcorner i},\vec{w})$ ，假设我们观测到 $w_i=t$ ，根据贝叶斯公式得到：

$p(z_i|\vec{z}_{\urcorner i},\vec{w})=\frac{p(z_i=k,w_i=t|\vec{z}_{\urcorner i},\vec{w}_{\urcorner i})}{p(w_i=t|\vec{z}_{\urcorner i},\vec{w}_{\urcorner i})}$

$p(z_i|\vec{z}_{\urcorner i},\vec{w})\varpropto p(z_i=k,w_i=t|\vec{z}_{\urcorner i},\vec{w}_{\urcorner i})$

由于 $z_i=k$ ， $w_i=t$ 只会涉及到第 $m$ 篇文档和第 $k$ 个topic，所以上式的条件概率中只会涉及到与之相关的两个dirichlet-multinormal共轭结构，其他的其它的 M+K−2 个 Dirichlet-Multinomial 共轭结构和 $z_i=k$ ， $w_i=t$ 是独立的。去掉一个词并不会改变M+K个dirichlet-multinormal共轭结构，只是某些地方的计数减少而已，所以后验概率公式如下：

$\begin{aligned} p(\vec{\theta}_m|\vec{z}_{\urcorner i},\vec{w}_{\urcorner i}) &=Dir(\vec{\theta}_m|\vec{n}_{m,\urcorner i}+\vec{\alpha})\\ p(\vec{\phi}_k|\vec{z}_{\urcorner i},\vec{w}_{\urcorner i}) &=Dir(\vec{\phi}_k|\vec{n}_{k,\urcorner i}+\vec{\eta}) \end{aligned}$

好的一切准备就绪，我们来看条件概率的推导过程(偷个懒，贴图)：

在这里插入图片描述
我们再次回忆一下各个参数的含义：
1） $\theta_m$ 的含义，把他理解成第 $m$ 篇文章中多项式分布的概率参数向量 $\vec{p}$ 。

2） $\theta_{mk}$ 的含义，在本篇文章中，topic分布为 $\theta_m$ 的概率下，单词 $i$ 为主题 $k$ 的概率 $p_k$ 。

3） $\hat{\theta}_{mk}$ 的含义， $\theta_m$ 是符合Dirichlet分布的，所以 $\hat{\theta}_{mk}$ 是在Dirichlet分布下的的期望值.

最终得到的就是对应的两个 Dirichlet 后验分布在贝叶斯框架下的参数估计。而借助于前面介绍的Dirichlet 期望的公式 :

$\begin{aligned} & \hat{\theta}_{mk}=\frac{n_{m,\urcorner i}^{(k)}+\alpha_k}{\sum_{k=1}^{K}n_{m,\urcorner i}^{(k)}+\alpha_k}\\ & \hat{\phi}_{kt}=\frac{n_{k,\urcorner i}^{(t)}+\eta_t}{\sum_{k=1}^{K}n_{k,\urcorner i}^{(t)}+\eta_t}\\ \end{aligned}$

最终，我们得到LDA 模型的 Gibbs Sampling 公式为：

$p(z_i=k|\vec{z}_{\urcorner i},\vec{w})\varpropto \frac{n_{m,\urcorner i}^{(k)}+\alpha_k}{\sum_{k=1}^{K}n_{m,\urcorner i}^{(k)}+\alpha_k}.\frac{n_{k,\urcorner i}^{(t)}+\eta_t}{\sum_{k=1}^{K}n_{k,\urcorner i}^{(t)}+\eta_t}$

2.4.3 LDA训练

根据上一小节中的公式，我们的目标有两个：

估计模型中的参数 $\vec{\theta}_1,\vec{\theta}_2,...,\vec{\theta}_M$ 和 $\vec{\phi}_1,\vec{\phi}_2,...,\vec{\phi}_K$ ，
对于一篇新的文档我们能计算这篇文档的topic分布 $\vec{\theta}$

1，对于语料库中的每个词汇 $w$ ，随机赋予一个topic编号z
2，重新扫描语料库，对每个词 $w$ ，使用Gibbs Sampling公式对其采样，求出它的topic，在语料库中更新。
3，重复步骤2，知道Gibbs Sampling收敛
4，统计语料库中的topic-word共现频率矩阵，该矩阵就是LDA的模型；

只要模型收敛了，那么每个词都会对应一个topic，接下来根据定义，统计每个topic下的单词分布，就能得到topic-word模型相应的参数 $\vec{\phi}_1,\vec{\phi}_2,...,\vec{\phi}_K$ ，然后对于一篇文章，统计每个单词的topic，得到doc-topic的分布参数 $\vec{\theta}_1,\vec{\theta}_2,...,\vec{\theta}_M$ ，因为 $\vec{\theta}$ 与每篇文章相关，对于我们理解新的文档没有用，所以LDA一般保留topic-word参数.

2.3.4 LDA测试

有了topic-word参数，对于新的文档，我们在Gibbs采样的时候认为topic-word参数不变，只更新doc-topic参数即可，等采样过程收敛后，每个word就有了相应的topic，统计可得分布参数theta.

1，对当前文档中的每个单词w，随机初始化一个topic编号z；
2，使用Gibbs Sampling公式，对每个词w，重新采样其topic；
3，重复以上过程，直到Gibbs Sampling收敛；
4，统计文档中的topic分布，该分布就是 $\vec{\theta}$

这时，我们就得到了文章的主题分布了。到这里问题似乎已经解决了，我们得到了 $\phi,\theta,z$ ，但是观察整个过程我们发现其实，从一开始我们就假设了 $\vec{\alpha},\vec{\eta}$ ，但是这两个先验分布的参数怎么确定呢？一种方法是经验方法：alpha 选择为 50/ k, 其中k是你选择的topic数，beta一般选为0.01，这都是经验值，貌似效果比较好，收敛比较快一点。有一篇paper， lda-based document models for ad-hoc retrieval里面的实验系数设置有提到一下；另一种就是通过EM算法估计超参数，我们下一篇再进行总结。

上一篇 LDA主题模型1——数学基础
下一篇 LDA主题模型3——EM算法求解
参考资料：
https://zhuanlan.zhihu.com/p/31470216
https://www.cnblogs.com/pinard/p/6867828.html#!comments
https://www.cnblogs.com/pinard/p/6831308.html

端坐的小王子

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
LDA主题模型2——文本建模与Gibbs采样求解

相信很多人第一次看到LDA算法都会头大，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。...
复制链接

扫一扫

专栏目录