主题模型（三）潜在狄利克雷分配 LDA 求解之变分EM算法

最新推荐文章于 2022-04-15 20:58:01 发布

风吹草地现牛羊的马

最新推荐文章于 2022-04-15 20:58:01 发布

阅读量671

点赞数

分类专栏：主题模型（topic model）变分贝叶斯系列机器学习文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/mch2869253130/article/details/108939057

版权

机器学习同时被 3 个专栏收录

97 篇文章 5 订阅

订阅专栏

变分贝叶斯系列

22 篇文章 12 订阅

订阅专栏

主题模型（topic model）

11 篇文章 1 订阅

订阅专栏

本文涉及的知识点有，最大似然，贝叶斯估计，共轭分布，EM算法，变分推断等。

极大似然估计、极大后验估计和贝叶斯估计

在进行下面的推导之前，首先要了解参数估计的相关内容，见最大似然估计（MLE）、最大后验估计（MAP）和贝叶斯估计

LDA初探

在PLSA模型中，doc-topic分布和topic-word分布（也就是在主题模型（二）概率潜在语义分析（PLSA或PLSI)中求解的 $p(z_k|d_i)和p(w_j|z_k)$ ）一旦被求解，就是固定的，是一个常数。但是在贝叶斯学派认为，未知的参数应该是一个随机变量，应该考虑其先验知识，而且根据贝叶斯估计的方法，随机变量应该也服从一个分布，而不是一个常数。

也就是说：文档 $d_i$ 的主题分布 $\overrightarrow{\theta}_{i}=(p(z_1|d_i), p(z_2|d_i),...,p(z_K|d_i))$ 应该服从一个先验分布 $p(\overrightarrow{\theta}_{i})$ ，主题的单词分布 $\overrightarrow{\beta}_{k}=(p(w_1|z_k),p(w_2|z_k),...,p(w_N|z_k))$ 应该也服从一个先验分布。

这里解释一下，有人可能有疑问： $\overrightarrow{\theta}_{i}$ 不是服从多项式分布吗，怎么又服从一个先验分布了？其实是这样的， $\overrightarrow{\theta}_{i}$ 并不是服从多项式分布，而是多项式分布的参数，多项式分布的随机变量不是 $\overrightarrow{\theta}_{i}$ ，而是重复n次实验后，K种实验结果的频次。贝叶斯学派认为，虽然 $\overrightarrow{\theta}_{i}$ 是多项式分布的参数，但是这个参数也是一个随机变量，服从一个分布。比如在贝叶斯学派眼中，高斯分布的协方差阵也是服从一个分布的，叫逆威沙特分布。所以 $\overrightarrow{\theta}_{i}$ 服从的分布可以理解为是分布的参数（比如多项式分布）的先验分布（比如狄利克雷分布）。

通常为了计算方便，使用共轭分布来进行贝叶斯估计，多项式分布的共轭先验是狄利克雷分布。

在LDA中，文档的主题的生成过程 $p(z|d_i)$ 是服从多项式分布的，这个多项式分布的参数是 $\theta_{i}$ ， $\theta_{i}=(\theta_{i,1}, \theta_{i,2},...\theta_{i,K})$ 是一个 $K$ 维的向量， $\theta_{i,k}=p(z_k|d_i)$ 表示文档 $d_i$ 生成话题 $z_k$ 的概率。 $\theta_{i}$ 本身也服从一个先验分布，叫做狄利克雷分布，但是这个狄利克雷分布本身也是有参数的，其参数记为 $\alpha$ ， $\alpha$ 是一个 $K$ 维的向量。

主题 $k$ 的单词的生成过程 $p(w|z_k)$ 是服从多项式分布的，这个多项式分布的参数是 $\beta_{k}$ ， $\beta_{k}=(\beta_{k,1}, \beta_{k,2},...\beta_{k,N})$ 是一个 $N$ 维的向量， $\beta_{k,j}=p(w_j|z_k)$ 表示主题 $z_k$ 生成单词 $w_j$ 的概率。 $\beta_{k}$ 本身也服从一个狄利克雷分布，这个狄利克雷分布的参数是 $\eta$ ， $\eta$ 是一个 $N$ 维的向量。

所以从上面的分析可以看出，LDA在PLSA的基础上加入了先验信息，是PLSA的贝叶斯版本。

下面我们也按照在讲解PLSA的时候，分布讲解5项内容。

主题模型的输入
主题模型的基本假设
主题模型的表示
1. 概率图模型
2. 生成过程
参数估计
新样本的推断

1. 主题模型的输入

在LDA模型中，输入与PLSA的相同，都是文档-词共线矩阵，矩阵元素是词在文档中的词频或者TF-IDF值。

2. 主题模型的基本假设

这一部分也与PLSI的相同，就是词袋假设，没有考虑词序，交换词序不会影响最终结果。

3. 主题模型的表示

3.1 LDA的概率图模型

在这里插入图片描述
上图就是LDA的概率图模型，简单解释一下。

LDA的概率图模型中，可观测变量只有文档的单词
$\alpha, \beta$ 是模型的参数， $\theta, \beta, z$ 是隐变量
LDA的参数也分为3个级别， $\alpha, \eta, \beta$ 是模型级别的参数，作用域是整个文档集。 $\theta$ 是文档级别的参数，表示某一篇文档的主题分布，作用域是一篇文档。 $z$ 是词级别的参数，作用域是某一个词，表示那个词的主题。
$\alpha \longrightarrow \theta \longrightarrow z$ 组成了狄利克雷-多项式共轭，也就是 $p(\theta|\alpha)$ 是狄利克雷分布， $p(\theta|\alpha)=Dir(\theta|\alpha)={\Gamma(\sum_{k=1}^K \alpha_k) \over \prod_{k=1}^K \Gamma(\alpha_k)} \prod_{k=1}^K\theta_k^{\alpha_{k}-1}$
$p(z|\theta)$ 是多项式分布（严格意义上是类别分布，因为只做了一次实验）。
$p(z=k|\theta)= Mult(z=k|\theta) = \theta_k$
$\eta \longrightarrow \beta \longrightarrow w$ 组成了狄利克雷-多项式共轭。也就是 $p(\beta|\eta)$ 是狄利克雷分布， $V$ 表示词表长度。
$p(\beta_k|\eta)=Dir(\beta_k|\eta)={\Gamma(\sum_{j=1}^V \eta_j) \over \prod_{j=1}^V\Gamma(\eta_j)} \prod_{j=1}^V\beta_{k,j}^{\eta_{j}-1}$
$p(w|\beta)$ 是多项式分布，（严格意义上是类别分布，因为只做了一次实验）。
$p(w_j|\beta_k)= Mult(w_j|\beta_k) = \beta_{k,j}$

3.2 LDA的生成过程

根据参数为 $\alpha$ 狄利克雷分布采样得到文档 $d_i$ 的主题分布 $\theta_{i}$
根据参数为 $\eta$ 的狄利克雷分布采样得到主题 $z_k$ 的词分布 $\beta_{k}$ ，每个话题采样一次，一共采样 $K$ 次。
假设文档 $d_i$ 的单词数是 $n_{d_i}$ ，对文档 $d_i$ 中每个单词的位置重复下面的过程：
- 根据参数为 $\theta_{i}$ 多项式分布随机生成一个话题 $z_k$ ，选择的主题 $z_k$ 的词分布 $\beta_k$ ，
- 根据参数为 $\beta_k$ 的多项式分布随机生成一个单词 $w_{j}$
重复上面的步骤 $M$ 次，就得到了一篇文档集。

4. 参数估计

在EM算法总结一文中，得到了EM算法的一般框架，在E步要求隐变量的后验分布。在LDA中，隐变量是 $\theta, \beta, z$ ，所以我们要求解 $p(\theta, \beta, z|W, \alpha, \eta)$

$\tag{1} p(\theta, \beta, z|W, \alpha, \eta) = {p(\theta, \beta, z, W| \alpha, \eta) \over p(W|\alpha, \eta)}$

根据概率图模型和生成过程，可以得到
$\tag{2} p(\theta, \beta, z, W| \alpha, \eta) =[\prod_{k=1}^Kp(\beta_k|\eta)]\prod_{i=1}^{M} [p(\theta_i|\alpha)\prod_{j=1}^{N_{d_i}}p(z_{i,j}|\theta_i)p(w_{i,j}|z_{i,j}, \beta)]$

$\tag{3} \begin{aligned} p(W|\alpha,\eta) = & \int_{\theta}\int_{\beta}\sum_{z}p(\theta,\beta,z,W|\alpha,\eta)d\beta d\theta \\ = & \int_{\theta}\int_{\beta}\sum_{z}[\prod_{k=1}^Kp(\beta_k|\eta)]\prod_{i=1}^{M} [p(\theta_i|\alpha)\prod_{j=1}^{N_{d_i}}p(z_{i,j}|\theta_i)p(w_{i,j}|z_{i,j}, \beta)]d\theta d\beta \\ = & \int_{\beta}[\prod_{k=1}^Kp(\beta_k|\eta)] \int_{\theta}\prod_{i=1}^{M} [p(\theta_i|\alpha)\prod_{j=1}^{N_{d_i}}\sum_{l=1}^Kp(z_{i,j}=l|\theta_i)p(w_{i,j}|\beta_l)]d\theta d\beta \\ = & \prod_{k=1}^{K} \int_{\beta_k}p(\beta_k|\eta)[\prod_{i=1}^{M}\int_{\theta_i}p(\theta_i|\alpha)\prod_{j=1}^{N_{d_i}}[\sum_{l=1}^{K}p(z_{i,j}=l|\theta_i)p(w_{i,j}|\beta_l)]d\theta_i]d\beta_k \end{aligned}$
由于 $\theta, \beta, z$ 之间的耦合性，（1）式是没有办法直接求解的，但是如果不求就没有办法使用EM算法了。因此使用变分推断的方法，具体就是引入平均场理论的变分推断，这个推断假设，所有的隐藏变量都是通过各自的独立分布形成的，如下图所示：
在这里插入图片描述
我们假设隐藏变量 $\theta$ 是由独立分布 $\gamma$ 形成的， $\beta$ 是由独立分布 $\lambda$ 形成的， $z$ 是由独立分布 $\phi$ 形成的。这样就得到了隐藏变量的联合变分分布 $q$ 为：

$\begin{aligned} \tag{4} q(\theta, \beta, z|\gamma, \lambda, \phi)= & \prod_{k=1}^{K}q(\beta_{k}|\lambda_{k})\prod_{i=1}^{M}q(\theta_i,z_i|\gamma_i, \phi_i) \\ = & \prod_{k=1}^{K}q(\beta_{k}|\lambda_{k})\prod_{i=1}^{M}[q(\theta_i|\gamma_i)\prod_{j=1}^{N_{d_i}} q(z_{i,j}|\phi_{i,j})] \end{aligned}$
在变分推断这篇文章中，推导了变分推断的ELBO:
$\tag{5} ELBO = \int_Zq(Z)log{p(X,Z|\Theta) \over q(Z)}dZ =E_{q}[logp(X,Z|\Theta)]-E_{q}[logq(Z)]$
$这里的 Z$ 指的不仅仅是一个隐变量，而是像LDA中多个隐变量， $\Theta$ 是模型的参数，也就是在LDA模型中， $q(Z)=q(\theta, \beta, z|\gamma, \lambda, \phi)$ ， $p(X,Z|\Theta)=p(\theta, \beta, z, W|\alpha, \eta)$

将（2）式和（4）式带入（5）式得到了LDA的变分EM算法的下界：
$\tag{6} \begin{aligned} L(\gamma, \lambda, \phi; \alpha,\eta) = & E_{q}[logp(\theta, \beta, z, W|\alpha, \eta)]-E_{q}[logq(\theta, \beta, z|\gamma, \lambda, \phi)] \\ = & E_{q}[logp(\theta|\alpha)]+E_{q}[logp(\beta|\eta)]+E_{q}[logp(z|\theta)]+E_{q}[logp(W|z,\beta)] \\ & - E_{q}[logq(\theta|\gamma)]-E_{q}[logq(\beta|\lambda)]-E_{q}[logq(z|\phi)] \end{aligned}$
（6）式可以分解成这样是因为对分布取了 $l o g$ ，而原来的（2）和（4）式内部都是乘积的形式，取 $l o g$ 之后就变成了和式，所以可以将所有的相同的变量提取到一起进行求期望。

（6）式展开之后有7项，为了简化篇幅，以 $E_{q}[logp(\beta|\eta)]$ 为例讲解。在讲解之前，先了解一下指数分布簇相关的内容：指数分布簇是指形如下面形式的概率分布：
$p(x|\theta) = h(x)e^{\eta(\theta)*T(x)-A(\theta)}$
其中， $A(\theta)$ 是归一化因子，保证积分为1，引入指数分布簇，是因为指数分布簇具有这样的性质：
$E_{p(x|\theta)}[T(x)] = { dA(\theta) \over d\eta(\theta)}$

常见的分布，比如高斯分布、多项式分布、狄利克雷分布、伯努利分布、泊松分布、指数分布都是指数分布簇。有了这个性质，意味着（6）式中期望的计算可以转化为求导来完成。下面来求解 $E_{q}[logp(\beta|\eta)]$
$\tag{7} \begin{aligned} E_{q}[logp(\beta|\eta)] = &E_{q}[log\prod_{k=1}^{K}({\Gamma(\sum_{j=1}^V \eta_j) \over \prod_{j=1}^V\Gamma(\eta_j)} \prod_{j=1}^V\beta_{k,j}^{\eta_{j}-1})] \\ = & Klog \Gamma(\sum_{j=1}^V \eta_j) - K\sum_{j=1}^{V}\Gamma(\eta_j)+\sum_{k=1}^{K}E_{q}[\sum_{j=1}^{V}(\eta_{j}-1)log\beta_{k,j}] \end{aligned}$
（7）式中的期望部分可以转化为求导来完成。即：
在这里插入图片描述
其中：
最终得到ELBO中第一项的展开式为：

其他6项的表达式为：

到这里，我们求得到了隐变量 $\theta, \beta, z$ 的期望的表达式，ELBO貌似可以求解了，但是前提是要知道变分参数 $\gamma, \lambda, \phi$ 和模型参数 $\alpha, \eta$ 的值，下面就用变分EM算法来迭代更新变分参数和模型参数。

E-STEP: 获取最优变分参数

EM算法是求解隐变量的后验，这里不同的是计算变分分布的参数 $\gamma, \lambda, \phi$ 。令ELBO对各个变分参数求导，并令偏导数为0，可以得到迭代表达式，多次迭代就得到了最优变分参数。这里不详细推导，直接给出表达式。
在这里插入图片描述（8）
其中， $w_{n}^i = 1$ 当且仅当文档中第 $n$ 个词为词汇表中的第 $i$ 个词。

（9）

（10）

由于变分参数 $\lambda$ 决定了 $\beta$ 的分布，对于整个语料库是共享的，所以有：
在这里插入图片描述
（11）
　最终我们的E步就是用（8）（9）（11）式来更新三个变分参数。当我们得到三个变分参数后，不断循环迭代更新，直到这三个变分参数收敛。当变分参数收敛后，下一步就是M步，固定变分参数，更新模型参数 $\alpha, \eta$ 了。

M-STEP： 更新模型参数

由于我们在E步，已经得到了当前最佳变分参数，现在我们在M步就来固定变分参数，极大化ELBO得到最优的模型参数 $\alpha, \eta$ 。求解最优的模型参数 $\alpha, \eta$ 的方法有很多，梯度下降法，牛顿法都可以。LDA这里一般使用的是牛顿法，即通过求出ELBO对于 $\alpha, \eta$ 的一阶导数和二阶导数的表达式，然后迭代求解 $\alpha, \eta$ 在M步的最优解。

在这里插入图片描述
参考：https://www.cnblogs.com/pinard/p/6873703.html#!comments

风吹草地现牛羊的马

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
主题模型（三）潜在狄利克雷分配 LDA 求解之变分EM算法

本文涉及的知识点有，最大似然，贝叶斯估计，共轭分布，EM算法，变分推断等。极大似然估计、极大后验估计和贝叶斯估计在进行下面的推导之前，首先要了解参数估计的相关内容，见最大似然估计（MLE）、最大后验估计（MAP）和贝叶斯估计LDA初探在PLSA模型中，doc-topic分布和topic-word分布（也就是在主题模型（二）概率潜在语义分析（PLSA或PLSI)中求解的p(zk∣di)和p(wj∣zk)p(z_k|d_i)和p(w_j|z_k)p(zk∣di)和p(wj∣zk)）一旦被求解，就
复制链接

扫一扫

专栏目录