LDA主题模型学习笔记2：求解隐变量和模型参数（EM思想）

最新推荐文章于 2022-03-27 11:26:02 发布

July_Zh1

最新推荐文章于 2022-03-27 11:26:02 发布

阅读量9.8k

点赞数 6

分类专栏： machine learning 文章标签：模型算法参数 lda 主题

本文链接：https://blog.csdn.net/happyer88/article/details/46405399

版权

machine learning 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

    上一篇《LDA主题模型学习笔记1：模型建立》中，我们已经对一个文档集的生成过程建立了三层的LDA主题模型，模型参数是 $\alpha,\beta$ ，引入了隐变量 $\theta,\mathbf z$ ，接下来就是要确定这些参数，也就是参数估计问题。
    原始论文《Latent Dirichlet Allocation》中，作者使用EM算法来估计参数，只是由于模型本身有些复杂，在E-step求解隐变量期望时使用了变分推断，并找到log似然函数的tightest lower bound代替log似然函数，在M-step中用拉格朗日乘数法求解参数 $\beta$ ，用牛顿方法求解参数 $\alpha$ 。
    由于原始论文中写作顺序是自下而上的，而笔者习惯于自上而下的思路，所以刚开始看变分推断的时候一头雾水，沉迷于细节中无法自拔，在后面看到EM算法时颇有“柳暗花明又一村”之感，而在经典神书PRML中重新温习了EM算法（见《EM算法学习笔记》）之后，才算是理解了作者求解参数的思路。所以要搞清参数求解过程，私以为需要先梳理好这里面的EM思想。

有文档集 $D=[\mathbf w_1,w_2,...,w_M]$ ，对D建立LDA模型，其实与生成D的过程是刚好是逆向的。生成D时，我们是对于每一篇document，选择topic，选择word，而建模时，是对于每一篇document，根据观测到的word，来估计它的topic的分布，即为该document建立主题模型。

所以我们的目标是，找到一个主题模型，它生成我们所观测到的word分布的概率最大，这样就成了一个最大似然问题，log似然函数如下：

l (α, β) = \sum d = 1 M l o g p (w d | α, β) .

$l(\alpha,\beta)=\sum_{d=1}^Mlogp(\mathbf w_d|\alpha,\beta).$
我们希望找到合适的

α,β $\alpha,\beta$ 来使这个似然函数最大化。不能直接用最大似然方法求解的情况下，我们使用EM算法。

E-step
首先我们要求隐变量 $\theta,\mathbf z$ 的期望，隐变量的后验概率可以计算得到：

p (θ, z | w, α, β) = p ( θ , z , w | α , β ) p ( w | α , β )

$p(\theta,\mathbf z|\mathbf w,\alpha,\beta)=\frac{p(\theta,\mathbf z,\mathbf w|\alpha,\beta)}{p(\mathbf w|\alpha,\beta)}$
不幸的是，这个后验概率很难计算出来，因为在

p(w|α,β) $p(\mathbf w|\alpha,\beta)$ 的概率分布都展开，可以得到：

p (w | α, β) = Γ ( \sum i α i ) \prod i Γ ( α i ) \int (\prod i = = 1 k θ α i - 1 i) (\prod i = 1 N \sum i = 1 k \prod j = 1 V (θ i β i j) w j n) d θ .

$p(\mathbf w|\alpha,\beta)=\frac{\Gamma(\sum_i \alpha_i)}{\prod_i \Gamma(\alpha_i)}\int(\prod_{i==1}^k \theta_i^{\alpha_i -1})(\prod_{i=1}^N\sum_{i=1}^k\prod_{j=1}^V(\theta_i\beta_{ij})^{w_n^j})d\theta.$
可以看出，

θ $\theta$ 对参数

α $\alpha$ 有指数幂，且与

β $\beta$ 的乘积要基于隐变量

z $\mathbf z$ 求和，

θ,β $\theta,\beta$ 之间存在耦合关系，因而对两个参数求导都不能消掉它，所以无法计算上述对于隐变量的边缘分布。

所以作者考虑变分推断的方法。简化原先的LDA模型，找一个与原来不能直接求解的后验概率等价或近似的分布q，这个q要好解，一般比较简单粗暴的方法就是直接假设q中 $\theta,\mathbf z$ 相互独立。
对原模型去掉 $\theta, \mathbf z, \mathbf w$ 之间的边，删掉 $\mathbf w$ ，这样 $\theta和\mathbf z$ 就相互独立了。
模型图：
lda简化模型
从模型中可以得出 $\theta,\mathbf z$ 的分布q：

q (θ, z | γ, ϕ) = q (θ | ϕ) \prod n = 1 N q (z n | ϕ n),

$q(\theta,\mathbf z|\gamma,\phi)=q(\theta|\phi)\prod_{n=1}^Nq(z_n|\phi_n),$
新分布中引入了两个变分参数：Dirichlet参数

γ $\gamma$ ,多项分布参数

(ϕ1,...,ϕN) $(\phi_1,...,\phi_N)$ 。我们要用q来代替p，当然希望q与p越近似越好，所以对于q的确定，也就是

γ,ϕ $\gamma,\phi$ 的选取，我们的目标是如下的一个优化问题：

(γ *, ϕ *) = a r g m i n (γ, ϕ) D (q (θ, z | γ, ϕ) | | p (θ, z | w, α, β)) .

$(\gamma^*,\phi^*)=argmin_{(\gamma,\phi)}D(q(\theta,\mathbf z|\gamma,\phi)||p(\theta,\mathbf z|\mathbf w,\alpha,\beta)).$
这里引入了两个分布之间的KL Divergence来度量两个分布（p,q）的相似度。

然后用变分推断算法迭代得到最优的变分参数 $(\gamma^*,\phi^*)$ ，这样就等于已经确定了分布q，也就可以拿 $q(\theta,\mathbf z|\gamma,\phi)$ 来代替后验概率 $p(\theta,\mathbf z|\mathbf w,\alpha,\beta)$ 。
并且在用变分推断求解上述优化问题时，作者还通过使用Jensen不等式，找到了原log似然函数 $logp(\mathbf|\alpha,\beta)$ 的一个tightest lower bound： $L(\gamma,\phi|\alpha,\beta)$ ，用它来代替原log似然函数。
具体步骤见《LDA学习笔记3：变分推断算法》

M-step
这一步，我们根据E-step求出来的 $(\gamma,\phi)$ ，最大化 $L(\gamma,\phi|\alpha,\beta)$ ，求解模型参数 $\alpha,\beta$ ：用拉格朗日乘数法求解参数 $\beta$ ，用牛顿方法求解参数 $\alpha$ 。
具体步骤见《LDA学习笔记4：求解模型参数》