LDA主题模型 —— 变分推断EM算法推导

最新推荐文章于 2023-03-21 10:47:33 发布

ashome123

最新推荐文章于 2023-03-21 10:47:33 发布

阅读量1.6k

点赞数 6

分类专栏：机器学习文章标签：机器学习深度学习 nlp

本文链接：https://blog.csdn.net/ashome123/article/details/119088272

版权

LDA模型变分推断 EM算法狄利克雷分布多项式分布

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

本文目的
LDA模型的简单回顾
LDA求解 —— 变分推断EM算法
参考资料

本文目的

LDA (Latent Dirichlet Allocation) 是一个非常重要的文档主题模型，在众多领域均有着广泛的运用。LDA的训练方式大体分为基于Gibbs采样和变分推断EM算法两类。本文结合了一些相关资料，聚焦于LDA模型的变分推断EM算法的数学推导，假设读者已经了解过LDA的基本原理。

LDA模型的简单回顾

在这里插入图片描述
首先对LDA模型做一个简单的回顾：假设数据集 $D$ 中有 $M$ 篇文档，其中第 $d$ 篇文档有 $N_d$ 个单词，且数据集 $D$ 中一共涉及 $V$ 种单词， $K$ 种主题。上述概率图展示了LDA模型的生成过程，概率图中的各符号定义如下：

$\alpha$ ：“文档-主题”的先验狄利克雷分布参数，是一个 $K$ 维向量
$\eta$ ：“主题-单词”的先验狄利克雷分布参数，是一个 $V$ 维向量
$\theta_d$ ：表示第 $d$ 篇文档的主题多项式分布的参数，有 $\theta_d=Dir(\alpha)$
$z_{d,n}$ ：表示第 $d$ 篇文档中的第 $n$ 个单词所属的主题，是一个 $K$ 维one-hot向量
$\beta_k$ ：表示第 $k$ 个主题的单词多项式分布的参数，有 $\beta_k=Dir(\eta)$
$w_{d,n}$ ：表示第 $d$ 篇文档中的第 $n$ 个单词，是一个 $V$ 维的one-hot向量

LDA模型的生成过程如下：

首先从“文档-主题”的先验狄利克雷分布 $Dir(\alpha)$ 中生成文档 $d$ 的主题多项式分布参数 $\theta_d$ ， $(d=1,2,\dots,M)$
然后对文档 $d$ 中的每一个单词，从多项式分布 $Multi(\theta_d)$ 生成该单词对应的主题 $z_{dn}$ ， $(n=1,2,\dots,N_d)$
从狄利克雷分布 $Dir(\beta)$ 中生成主题 $k$ 的单词多项式分布参数 $\beta_k$ ， $(k=1,2,\dots,K)$
针对文档 $d$ 中的每一个单词，从多项式分布 $Multi(\beta_{z_{dn}})$ 中生成该单词 $w_{dn}$

LDA求解 —— 变分推断EM算法

关于EM算法和变分推断的推导可以参考我之前的一篇总结：《EM算法与变分推断 —— 数学推导》
如果不想看长篇大论也没关系，下面我将从LDA的视角入手，简单回顾一下EM算法和变分推断。

1 EM算法

对于概率图模型中包含有隐变量的情况，可以使用EM算法进行参数估计。隐变量是指不可观测的变量，但其参与到了样本的生成过程。在LDA模型中，隐变量为 $\theta, z, \beta$ ，可观测变量为单词 $w$ ，模型的参数为 $\alpha, \eta$ ，首先我们可以根据概率图中的关系直接写出所有变量的联合概率分布：
$\begin{aligned} p(w, \theta, z, \beta;\alpha,\eta) &= p(\beta|\eta) \, p(\theta|\alpha)\,p(z|\theta) \, p(w|\beta,z)\\ &= \prod_{k=1}^K p(\beta_k|\eta) \prod_{d=1}^M [\,p(\theta_d|\alpha) \prod_{n=1}^{N_d} p(z_{dn}|\theta_d) \, p(w_{dn}|\beta_{z_{dn}},z_{dn})] \end{aligned} \tag{1}$ 接下来我们可以利用求和或积分的方式消去联合概率分布中的隐变量，得到可观测变量 $w$ 在给定参数 $\alpha, \eta$ 的情况下的边际似然（针对于整个数据集 $D$ ）：
$p(w;\alpha,\eta)=\iint \prod_{k=1}^K p(\beta_k|\eta) \prod_{d=1}^Mp(\theta_d|\alpha) [\prod_{n=1}^{N_d} \sum_{z_{dn}} p(z_{dn}|\theta_d) \, p(w_{dn}|\beta_{z_{dn}},z_{dn})]d\beta_k \, d\theta_d \tag{2}$ LDA模型的目标是最大化(2)式，然而等式右边涉及复杂的积分，求解并不容易，因此可以引入一个关于隐变量 $\theta, z, \beta$ 的近似分布 $q(\theta, z, \beta)$ 对对数似然 $\log p(w;\alpha,\eta)$ 进行推导：
$\begin{aligned} \log p(w;\alpha,\eta) &= \iint \sum_z q(\theta, z, \beta) \log p(w;\alpha,\eta) \, d\beta d\theta \qquad\qquad\qquad\qquad\small{因为\sum_zq(\theta,z,\beta)=1}\\ &= \iint \sum_z q(\theta, z, \beta) \log[\frac{p(w, \theta, z, \beta;\alpha, \eta)}{p(\theta, z, \beta|w;\alpha, \eta)} \cdot \frac{q(\theta, z, \beta)}{q(\theta, z, \beta)} ] \, d\beta d\theta \\ &= \iint \sum_z q(\theta, z, \beta) \log \frac{p(w, \theta, z, \beta;\alpha, \eta)}{q(\theta, z, \beta)} \, d\beta d\theta \\ &\qquad+ \iint \sum_z q(\theta, z, \beta) \log \frac{q(\theta, z, \beta)}{p(\theta, z, \beta|w;\alpha, \eta)} \, d\beta d\theta \\ &= ELBO(q, w;\alpha, \eta) + KL[q(\theta, z, \beta) \, || \, p(\theta, z, \beta|w;\alpha, \eta)] \end{aligned} \tag{3}$ (3)式由两部分组成，其中第一项ELBO (Evidence Lower BOund) 称为证据下界，它表示对数似然 $\log p(w;\alpha,\eta)$ 的下界；第二项为KL散度项，它衡量两个分布的相似程度，是一个恒大于0的值，且相似程度越高KL散度值越趋于0

模型训练的目标是 $\argmax_{\alpha, \eta} \log p(w;\alpha, \eta)$ ，而由(3)式可知 $\log p(w;\alpha,\eta) \ge ELBO(q;\alpha,\eta)$ ，因此我们可以将模型优化的目标转变为 $\argmax_{\alpha,\eta}ELBO(q;\alpha,\eta)$ ，EM算法正式围绕着这个目标展开优化的。

EM算法分为E-step和M-step：首先在E-step时控制模型的参数保持不变，计算出隐变量的后验分布作为隐变量的近似分布，这一步使得KL散度项减小至0，而由于 $\log p(w;\alpha,\eta)$ 与隐变量无关不会发生改变，因此该步骤等同于最大化当前ELBO的值；之后在M-step时控制隐变量保持不变，寻找最优的模型参数使得ELBO达到当前的最大值。如此反复迭代E-step和M-step，使得ELBO项不断增大。

最终对于LDA模型，定义EM算法如下：

E-step：固定模型参数 $\alpha_t, \eta_t$ ，令 $q_{t+1}(\theta, z, \beta)=p(\theta, z, \beta|x;\alpha_t, \eta_t)$
M-step：固定 $q_{t+1}(\theta, z, \beta)$ ，优化模型参数 $\alpha_{t+1}, \eta_{t+1}=\argmax_{\alpha,\eta} ELBO(q_{t+1},x;\alpha, \eta)$

2 变分推断

2.1 确定问题目标

EM算法的关键步骤是E-step中令 $q_{t+1}(\theta, z, \beta)=p(\theta, z, \beta|x;\alpha_t, \eta_t)$ ，这需要计算隐变量的后验分布。对于较为简单的模型（如混合高斯模型等）隐变量的后验分布可以直接进行推导，而对于LDA模型而言，由概率图可知在 $w$ 为观测变量时，隐变量 $\beta$ 和 $\theta$ ， $\beta$ 和 $z$ 之间不是条件独立的，即存在耦合，无法进行隐变量后验分布的推导。因此我们可以引入变分推断的方法，假设隐变量 $\theta, z, \beta$ 分别由各自不同的独立分布生成（即mean field假设），得到一个变分分布 $q(\theta,z,\beta;\gamma,\phi,\lambda)$ ，并希望该变分分布近似我们无法求得的隐变量后验分布 $p(\theta,z,\beta|x;\alpha,\eta)$

因此关于隐变量 $\theta,z,\beta$ 的联合概率分布 $q(\theta, z, \beta)$ 可改写为如下形式：
$\begin{aligned} q(\theta, z, \beta) &= q(\theta, z, \beta;\gamma,\phi,\lambda) \\ &= \prod_{k=1}^Kq(\beta_k|\lambda_k) \prod_{d=1}^M [\, q(\theta_d|\gamma_d)\prod_{n=1}^{N_d}q(z_{dn}|\phi_{dn})\,] \end{aligned} \tag{4}$ 于是现在的目标变为： $\argmin_{\gamma,\,\phi,\,\lambda} KL[q(\theta,z,\beta|\gamma,\phi,\lambda) \, || \, p(\theta,z,\beta|w;\alpha,\eta)]$
然而现在我们采用变分推断的思路是引入变分分布去近似隐变量的后验分布，但是这依旧无法解决由隐变量耦合导致的后验分布无法推导的这一状况，因此我们可以尝试继续转化问题的目标：由(3)式可知对数似然 $\log p(w;\alpha,\eta)$ 由ELBO项和KL散度项两部分组成，因此最小化KL散度项等同于最大化ELBO项，即：
$\begin{aligned} \gamma^*,\phi^*,\lambda^* &= \argmin_{\gamma,\,\phi,\,\lambda} KL[q(\theta,z,\beta|\gamma,\phi,\lambda) \, || \, p(\theta,z,\beta|w;\alpha,\eta)] \\ &= \argmax_{\gamma,\,\phi,\,\lambda}ELBO(q, w;\alpha, \eta) \end{aligned} \tag{5}$
这里我们联合(4)式对 $ELBO(q,w;\alpha,\eta)$ 进行拆分：
$\begin{aligned} ELBO(q,w;\alpha,\eta) &= \iint \sum_z q(\theta, z, \beta) \log \frac{p(w, \theta, z, \beta;\alpha, \eta)}{q(\theta, z, \beta)} \, d\beta d\theta \\ &= \iint \sum_z q(\theta, z, \beta;\gamma,\phi,\lambda) \log \frac{p(w, \theta, z, \beta;\alpha, \eta)}{q(\theta, z, \beta;\gamma,\phi,\lambda)} \, d\beta d\theta \\ &= \mathbb{E}_{q(\theta, z, \beta;\gamma,\phi,\lambda)}\log p(w, \theta, z, \beta;\alpha, \eta) - \mathbb{E}_{q(\theta, z, \beta;\gamma,\phi,\lambda)}\log q(\theta, z, \beta;\gamma,\phi,\lambda) \\ &= \mathbb{E}_q\log p(\beta|\eta) + \mathbb{E}_q\log p(\theta|\alpha) + \mathbb{E}_q\log p(z|\theta) + \mathbb{E}_q \log p(w|\beta,z) \\ &\qquad- \mathbb{E}_q \log q(\beta|\lambda) - \mathbb{E}_q \log q(z|\phi) - \mathbb{E}_q \log q(\theta|\gamma) \qquad\small{将q(\theta, z, \beta;\gamma,\phi,\lambda)简记为q}\\ \end{aligned} \tag{6}$ 根据概率图模型将ELBO项拆解为了7项，下面的主要任务是依次对这7项进行推导，并由此实现EM算法。

2.2 指数分布族性质

这里需要引入一点指数分布族的性质，以方便后续的推导。首先狄利克雷分布的定义如下：
$Dir(\theta;\alpha) = \frac{\Gamma(\sum_{i=1}^K\alpha_i)}{\prod_{i=1}^K \Gamma(\alpha_i)} \prod_{i=1}^K \theta_i^{\alpha_i-1} \tag{7}$
其中 $\Gamma()$ 为Gamma函数，定义如下：
$\Gamma(x) = \int_0^\infin t^{x-1}e^{-t}dt \tag{8}$
由于狄利克雷分布属于指数分布族，这里不加证明地引入指数分布族的性质：
$\mathbb{E}_{Dir(\theta;\alpha)} \log(\theta_k) = \Psi(\alpha_k)-\Psi(\sum_{i=1}^Ka_i) \tag{9}$ 其中 $\Psi()$ 为Digamma函数：
$\Psi(x)=\frac{d}{dx}\log\Gamma(x)=\frac{\Gamma'(x)}{\Gamma(x)} \tag{10}$

2.3 对ELBO进行推导

下面将结合指数分布族的性质，对(6)式中的7个小项逐一进行推导。

$\mathbb{E}_q\log p(\beta|\eta)$
$\begin{aligned} \mathbb{E}_q\log p(\beta|\eta) &= \mathbb{E}_q\log\prod_{k=1}^KDir(\beta|\eta) \\ &= \mathbb{E}_q \log\prod_{k=1}^K\frac{\Gamma(\sum_{v=1}^V\eta_v)}{\prod_{v=1}^V\Gamma(\eta_v)}\prod_{v=1}^V\beta_{kv}^{\eta_v-1} \\ &= K\log \Gamma(\sum_{v=1}^V\eta_v) - K\sum_{v=1}^V\log\Gamma(\eta_v) + \sum_{k=1}^K\mathbb{E} _q\sum_{v=1}^V(\eta_v-1)\log\beta_{kv} \\ &= K\log \Gamma(\sum_{v=1}^V\eta_v) - K\sum_{v=1}^V\log\Gamma(\eta_v) \\ &\qquad + \sum_{k=1}^K\sum_{v=1}^V(\eta_v-1)[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})] \\ \end{aligned} \tag{11}$
$\mathbb{E}_q \log p(\theta|\alpha)$
$\begin{aligned} \mathbb{E}_q \log p(\theta|\alpha) &= \mathbb{E}_q\log Dir(\theta|\alpha) \qquad\qquad\qquad\qquad\small{这里只针对一篇文档，没有加入\prod_{d=1}^M}\\ &= \mathbb{E}_q \log\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^K\theta_k^{\alpha_k-1} \\ &= \log \Gamma(\sum_{k=1}^K\alpha_k) - \sum_{k=1}^K\log\Gamma(\alpha_k) + \sum_{k=1}^K\mathbb{E} _q(\alpha_k-1)\log\theta_k \\ &= \log \Gamma(\sum_{k=1}^K\alpha_k) - \sum_{k=1}^K\log\Gamma(\alpha_k) + \sum_{k=1}^K (\alpha_k-1)[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)]\\ \end{aligned} \tag{12}$
$\mathbb{E}_q\log p(z|\theta)$
$\begin{aligned} \mathbb{E}_q\log p(z|\theta) &= \sum_{n=1}^N\sum_{k=1}^K\mathbb{E}_q \log \theta_k^{z_{nk}} \qquad\qquad \small{z_n是K维onehot向量，z_{nk}}=1\,或\,0 \\ &= \sum_{n=1}^N\sum_{k=1}^K\mathbb{E}_q \, z_{nk} \cdot\mathbb{E}_q\log\theta_k \\ &= \sum_{n=1}^N\sum_{k=1}^K\phi_{nk} \cdot [\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)] \end{aligned} \tag{13}$
$\mathbb{E}_q\log p(w|\beta,z)$
$\begin{aligned} \mathbb{E}_q\log p(w|\beta,z) &= \sum_{n=1}^N\sum_{k=1}^K\sum_{v=1}^V\mathbb{E}_q\log \beta_{kv}^{(z_{nk}\cdot w_{nv})} \\ &= \sum_{n=1}^N\sum_{k=1}^K\sum_{v=1}^V\mathbb{E}_q\,z_{nk}\cdot \mathbb{E}_q\,w_{nv} \cdot \mathbb{E}_q\log\beta_{kv} \\ &= \sum_{n=1}^N\sum_{k=1}^K\sum_{v=1}^V \phi_{nk}\cdot w_{nv}\cdot[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})\,] \end{aligned} \tag{14}$
$\mathbb{E}_q\log q(\beta|\lambda)$
$\begin{aligned} \mathbb{E}_q\log q(\beta|\lambda) &= \mathbb{E}_q \log \prod_{k=1}^K[\frac{\Gamma(\sum_{v=1}^V\lambda_{kv})}{\prod_{v=1}^V\Gamma(\lambda_{kv})}\prod_{v=1}^V \beta_{kv}^{\lambda_{kv}-1}] \\ &= \sum_{k=1}^K[\,\log \Gamma(\sum_{v=1}^V\lambda_{kv}) - \sum_{v=1}^V \log \Gamma(\lambda_{kv})\,] \\ &\qquad + \sum_{k=1}^K\sum_{v=1}^V(\lambda_{kv}-1)[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})] \end{aligned} \tag{15}$
$\mathbb{E}_q\log q(z|\phi)$
$\begin{aligned} \mathbb{E}_q\log q(z|\phi) &= \sum_{n=1}^N\sum_{k=1}^K \mathbb{E}_q\log \phi_{nk}^{z_{nk}} \\ &= \sum_{n=1}^N\sum_{k=1}^K \mathbb{E}_q\,z_{nk}\cdot\log \phi_{nk} \\ &= \sum_{n=1}^N\sum_{k=1}^K\phi_{nk}\log \phi_{nk} \end{aligned} \tag{16}$
$\mathbb{E}_q\log q(\theta|\gamma)$
$\begin{aligned} \mathbb{E}_q\log q(\theta|\gamma) &= \mathbb{E}_q \log \frac{\Gamma(\sum_{k=1}^K\gamma_k)}{\prod_{k=1}^K\Gamma(\gamma_k)} \prod_{k=1}^K\theta_k^{\gamma_k-1} \\ &= \log \Gamma(\sum_{k=1}^K\gamma_k) - \sum_{k=1}^K \log \Gamma(\gamma_k) \\ &\qquad + \sum_{k=1}^K(\gamma_k-1)[\,\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)\,] \end{aligned} \tag{17}$

2.4 E-step推导

通过ELBO各项的推导，将 $ELBO(q,w;\alpha,\eta)$ 转化为了关于 $\gamma, \phi, \lambda,w,\alpha, \eta$ 的函数。在E-step中，我们的目标是找到最优的变分参数 $\gamma^*, \phi^*, \lambda^*$ 以最大化ELBO项的值，因此考虑分别对三个变分参数求偏导并置零。需要注意的是变分参数的限制条件，由于 $\gamma$ 和 $\lambda$ 是狄利克雷分布的参数，因此没有限制条件；而 $\phi$ 是多项式分布的参数，因此对于单词 $n$ 的所有主题概率之和等于1，即 $\sum_{k=1}^K\phi_{nk}=1\,\,(n=1,2,\dots,N)$

2.4.1 针对变分参数 $\phi$

挑选出ELBO中与 $\phi$ 有关的项，并加入Lagrange约束条件
$\begin{aligned} ELBO(q,w;\alpha,\eta)_{\bm{[\phi]}} &= \sum_{n=1}^N\sum_{k=1}^K\phi_{nk}[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)] \\ &\qquad + \sum_{n=1}^N\sum_{k=1}^K\sum_{v=1}^V\phi_{nk}\,w_{nv}[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})] \\ & \qquad -\sum_{n=1}^N\sum_{k=1}^K\phi_{nk}\log\phi_{nk} + \underbrace{\sum_{n=1}^N c_n(\sum_{k=1}^K\phi_{nk}-1)}_{Lagrange约束条件} \\ \end{aligned} \tag{18}$
对 $\phi_{nk}$ 求偏导
$\begin{aligned} \frac{\partial}{\partial\phi_{nk}} ELBO(q,w;\alpha,\eta)_{\bm{[\phi]}} &= \Psi(\gamma_k) - \Psi(\sum_{k'=1}^K\gamma_{k'}) \\ &\qquad + \sum_{v=1}^Vw_{nv}[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})] \\ &\qquad - \log\phi_{nk} - 1 + c_n \end{aligned} \tag{19}$
偏导数置0得到
$\begin{aligned} \phi_{nk} &= \exp\{\,\Psi(\gamma_k) - \Psi(\sum_{k'=1}^K\gamma_{k'}) + \sum_{v=1}^Vw_{nv}[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})] - 1 + c_n\}\\ &\propto \exp\{\,\Psi(\gamma_k) - \Psi(\sum_{k'=1}^K\gamma_{k'}) + \sum_{v=1}^Vw_{nv}[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})]\} \end{aligned} \tag{20}$

2.4.2 针对变分参数 $\gamma$

挑选出ELBO中与 $\gamma$ 有关的项
$\begin{aligned} ELBO(q,w;\alpha,\eta)_{\bm{[\gamma]}} &= \sum_{n=1}^N\sum_{k=1}^K\phi_{nk}[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)] \\ &\qquad + \sum_{k=1}^K(\alpha_k-1)[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)] \\ &\qquad - \log \Gamma(\sum_{k=1}^K\gamma_k) + \sum_{k=1}^K\log \Gamma(\gamma_k) \\ &\qquad - \sum_{k=1}^K(\gamma_k-1)[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_i)] \\ &= \sum_{k=1}^K \{\, (\sum_{n=1}^N\phi_{nk}+\alpha_k-\gamma_k)[\Psi(\gamma_k)-\Psi(\sum_{i=1}^K\gamma_k)]\,\} \\ &\qquad - \log \Gamma(\sum_{k=1}^K\gamma_k) + \sum_{k=1}^K\log \Gamma(\gamma_k) \end{aligned} \tag{21}$
对 $\gamma_k$ 求偏导
$\begin{aligned} \frac{\partial}{\partial\gamma_k}ELBO(q,w;\alpha,\eta)_{\bm{[\gamma]}} &= -\Psi(\gamma_k)+\Psi(\sum_{k'=1}^K\gamma_{k'}) \\ &\qquad + [\Psi'(\gamma_k)-\Psi'(\sum_{k'=1}^K\gamma_{k'})]\,(\sum_{n=1}^N\phi_{nk}+\alpha_k-\gamma_k) \\ &\qquad -\underbrace{\frac{\Gamma'(\sum_{k'=1}^K\gamma_{k'})}{\Gamma(\sum_{k'=1}^K\gamma_{k'})}}_{=\,\Psi(\sum_{k'=1}^K\gamma_{k'})} + \underbrace{\frac{\Gamma'(\gamma_k)}{\Gamma(\gamma_k)}}_{=\,\Psi(\gamma_k)} \\ &= (\sum_{n=1}^N\phi_{nk}+\alpha_k - \gamma_k) \, [\Psi'(\gamma_k) - \Psi'(\sum_{k'=1}^K\gamma_{k'})] \end{aligned} \tag{22}$
偏导数置0得到
$\gamma_k = \alpha_k + \sum_{n=1}^N\phi_{nk} \tag{23}$

2.4.3 针对变分参数 $\lambda$

挑选出ELBO中与 $\lambda$ 有关的项
$\begin{aligned} ELBO(q,w;\alpha,\eta)_{\bm{[\lambda]}} &= \sum_{k=1}^K\sum_{v=1}^V(\eta_v-1)[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})] \\ &\qquad + \sum_{n=1}^N\sum_{k=1}^K\sum_{v=1}^V\phi_{nk}\,w_{nv}[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})] \\ &\qquad - \sum_{k=1}^K[\log \Gamma(\sum_{v=1}^V\lambda_{kv}) - \sum_{v=1}^V\log\Gamma(\lambda_{kv})] \\ &\qquad - \sum_{k=1}^K\sum_{v=1}^V(\lambda_{kv}-1)[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})] \\ &= \sum_{k=1}^K\sum_{v=1}^V \,[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})][(\eta_v-1) \\ &\qquad + \sum_{n=1}^N\phi_{nk}\,w_{nv}-(\lambda_{kv}-1)] \\ &\qquad - \sum_{k=1}^K[\log \Gamma(\sum_{v=1}^V\lambda_{kv}) - \sum_{v=1}^V\log\Gamma(\lambda_{kv})] \end{aligned} \tag{24}$
对 $\lambda_{kv}$ 求偏导数
$\begin{aligned} \frac{\partial}{\partial\lambda_{kv}}ELBO(q,w;\alpha,\eta)_{\bm{[\lambda]}} &= [\Psi'(\lambda_{kv})-\Psi'(\sum_{i=1}^V\lambda_{ki})][\sum_{n=1}^N\phi_{nk}\,w_{nv}+\eta_v-\lambda_{kv}] \\ &\qquad - \Psi(\lambda_{kv}) + \Psi(\sum_{i=1}^V\lambda_{ki}) \\ &\qquad - \underbrace{\frac{\Gamma'(\sum_{v'=1}^V\lambda_{kv'})}{\Gamma(\sum_{v'=1}^V\lambda_{kv'})}}_{=\,\Psi(\sum_{v'=1}^V\lambda_{kv'})} + \underbrace{\frac{\Gamma'(\lambda_{kv})}{\Gamma(\lambda_{kv})}}_{=\,\Psi(\lambda_{kv})} \\ &= [\Psi'(\lambda_{kv})-\Psi'(\sum_{i=1}^V\lambda_{ki})][\sum_{n=1}^N\phi_{nk}\,w_{nv}+\eta_v-\lambda_{kv}] \end{aligned} \tag{25}$
偏导数置0得到
$\lambda_{kv}=\eta_v + \sum_{n=1}^N\phi_{nk}\,w_{nv} \tag{26}$

2.4.4 E-step更新公式

(20)、(23)、(26)三式已经将E-step中三个变分参数的更新公式给出，但这里需要注意的是之前我们都是按照一篇文档进行的公式推导，因此需要把训练数据扩展至整个语料库 $D$ ，得到最终的更新公式。这里需要注意的是参数 $\phi$ 和 $\gamma$ 是每个文档都不同的，而参数 $\lambda$ 是整个语料库共有的。
$\left\{ \begin{aligned} \phi_{dnk} & \propto \exp\{\,\Psi(\gamma_{dk}) - \Psi(\sum_{k'=1}^K\gamma_{dk'}) + \sum_{v=1}^Vw_{dnv}[\Psi(\lambda_{kv}) - \Psi(\sum_{i=1}^V\lambda_{ki})] \,\} \\ \gamma_{dk} & = \alpha_k + \sum_{n=1}^N\phi_{dnk} \\ \lambda_{kv}&=\eta_v + \sum_{d=1}^M\sum_{n=1}^N\phi_{dnk}\,w_{dnv} \end{aligned} \right.\tag{27}$ 在E-step中，只需循环更新 $\phi,\gamma,\lambda$ 三个参数，直至收敛即可。但这里需要注意一点，由于参数 $\phi$ 是有限制条件的，因此当更新完参数 $\phi$ 后要进行归一化，即对于任意文档 $d$ 和其中的单词 $n$ ，都有 $\sum_{k=1}^K\phi_{dnk}=1$

2.5 M-step推导

在E-step找到最佳的变分参数 $\phi, \gamma, \lambda$ 之后，接下来进入M-step，即需要固定变分分布 $q(\theta,z,\beta;\phi,\gamma,\lambda)$ ，寻找模型的参数 $\alpha,\eta$ 使得模型对数似然函数的下界 $ELBO(q,x;\alpha, \eta)$ 达到最大。这里需要分别求出ELBO对参数 $\alpha,\eta$ 的偏导数，然后采用梯度下降法或二阶牛顿迭代法寻找最优的参数解。

2.5.1 针对模型参数 $\alpha$

挑选出ELBO中与 $\alpha$ 有关的项
需要注意的是由于模型参数 $\alpha$ 都是针对数据集中所有文档的，即每个文档的参数 $\alpha$ 相同，因此在下面推导时会针对所有文档进行参数更新。
$\begin{aligned} ELBO(q,w;\alpha,\eta)_{\bm{[\alpha]}} &= \sum_{d=1}^M[\, \log \Gamma(\sum_{k=1}^K\alpha_k) - \sum_{k=1}^K\log\Gamma(\alpha_k)\,] \\ &\qquad + \sum_{d=1}^M \sum_{k=1}^K(\alpha_k-1)[\Psi(\gamma_{dk})-\Psi(\sum_{i=1}^K\gamma_{di})] \end{aligned} \tag{28}$
对 $\alpha_{k}$ 求一阶偏导数
$\begin{aligned} \frac{\partial}{\partial\alpha_{k}}ELBO(q,w;\alpha,\eta)_{\bm{[\alpha]}} &= M\cdot[\Psi(\sum_{i=1}^K\alpha_{i}) - \Psi(\alpha_k)\,]\\ &\qquad + \sum_{d=1}^M [\,\Psi(\gamma_{dk})-\Psi(\sum_{i=1}^K\gamma_{di})\,] \end{aligned} \tag{29}$
对 $\alpha_{j}$ 求二阶偏导数
$\begin{aligned} \frac{\partial}{\partial\alpha_{k}\alpha_j}ELBO(q,w;\alpha,\eta)_{\bm{[\alpha]}} &= M\cdot[\,\Psi'(\sum_{i=1}^K\alpha_i) - \delta(k,j)\Psi'(\alpha_k)\,] \end{aligned} \tag{30}$ 其中 $\delta(k,j)=\left\{ \begin{aligned} 1, \,\,\, & k=j \\ 0, \,\,\, & k\ne j \end{aligned} \right.\tag{31}$

2.5.2 针对模型参数 $\eta$

挑选出ELBO中与 $\eta$ 有关的项
$\begin{aligned} ELBO(q,w;\alpha,\eta)_{\bm{[\eta]}} &= K\log \Gamma(\sum_{v=1}^V\eta_v) - K\sum_{v=1}^V\log\Gamma(\eta_v) \\ &\qquad + \sum_{k=1}^K\sum_{v=1}^V(\eta_v-1)[\Psi(\lambda_{kv})-\Psi(\sum_{i=1}^V\lambda_{ki})] \end{aligned} \tag{32}$
对 $\eta_{i}$ 求一阶偏导数
$\begin{aligned} \frac{\partial}{\partial\eta_{i}}ELBO(q,w;\alpha,\eta)_{\bm{[\eta]}} &= K\cdot[\Psi(\sum_{i'=1}^V\eta_{i'}) - \Psi(\eta_i)\,]\\ &\qquad + \sum_{k=1}^K [\,\Psi(\lambda_{ki})-\Psi(\sum_{i'=1}^V\lambda_{ki'})\,] \end{aligned} \tag{33}$
对 $\eta_{j}$ 求二阶偏导数
$\begin{aligned} \frac{\partial}{\partial\eta_{i}\eta_j}ELBO(q,w;\alpha,\eta)_{\bm{[\eta]}} &= K\cdot[\,\Psi'(\sum_{i'=1}^V\eta_{i'}) - \delta(i,j)\Psi'(\eta_{i})\,] \end{aligned} \tag{34}$

2.5.3 M-step更新公式（牛顿迭代法）

M-step通常采用牛顿迭代法求解，其收敛速度比梯度下降快一些
$\left\{ \begin{aligned} \alpha_k &= \alpha_k + \frac{\nabla_{\alpha_k}ELBO}{\nabla_{\alpha_k\alpha_j}ELBO}\\ \eta_i &= \eta_i + \frac{\nabla_{\eta_i}ELBO}{\nabla_{\eta_i\eta_j}ELBO} \end{aligned} \right.\tag{35}$