LDA主题模型系列（二）求解之Gibbs采样

最新推荐文章于 2022-06-16 03:19:30 发布

Bernard_Yang

最新推荐文章于 2022-06-16 03:19:30 发布

阅读量855

点赞数

分类专栏： NLP 文章标签：算法机器学习人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_38224810/article/details/116362897

版权

NLP 专栏收录该内容

21 篇文章 5 订阅

订阅专栏

本系列分为三部分：

LDA基本概念
LDA求解之Gibbs采样
LDA求解之变分推断EM算法

该篇为第二部分：LDA求解之Gibbs采样
对于Gibbs采样不了解的可以参考这里

本文只包括思路，具体的数学推导可以参考刘建平老师的博客

回顾LDA模型

在这里插入图片描述

Gibbs 采样思路

$\alpha, \eta$ 是已知的先验输入,目标是得到各个 $z_{d n}, w_{d n}$ 对应的整体 $\vec{z}, \vec{w}$ 的概率分布，即文档主题的分布和主题词的分布。

由于我们是采用Gibbs采样法，则对于要求的目标分布，我们需要得到对应分布各个特征维度的条件概率分布。

所有文档联合起来形成的词向量 $\vec{w}$ 是已知的数据, 不知道的是语料库主题 $\vec{z}$ 的分布。

假如可以先求出 $w, z$ 的联合分布 $p(\vec{w}, \vec{z})$ , 进而可以求出某一个词 $w_{i}$ 对应主题特征 $z_{i}$ 的条件概率分布 $p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right)$ 其中, $\vec{z}_{\neg i}$ 代表去掉下标为 $i$ 的词对应的主题k后的主题分布。

有了条件概率分布 $p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right)$ , 就可以进行Gibbs采样，最终在Gibbs采样收敘后得到第 $i$ 个词的主题。

得到了所有词的主题,那么通过统计所有词的主题计数, 就可以得到各个主题的词分布。

接着统计各个文档对应词的主题计数, 就可以得到各个文档的主题分布。

以上就是Gibbs采样算法求解LDA的思路。

主题和词的联合分布与条件分布的求解

我们的目标是先得到 $w, z$ 的联合分布 $p(\vec{w}, \vec{z})$ , 由于 $p(\vec{w}, \vec{z}) \propto p(\vec{w}, \vec{z} \mid \vec{\alpha}, \vec{\eta})=p(\vec{z} \mid \vec{\alpha}) p(\vec{w} \mid \vec{z}, \vec{\eta})$
所以我们先求解 $p(\vec{z} \mid \vec{\alpha}) p(\vec{w} \mid \vec{z}, \vec{\eta})$

$p(\vec{z} \mid \vec{\alpha})$ 是所以文档的主题的条件分布，即
$p(\vec{z} \mid \vec{\alpha}) = \Pi_{d=1}^D p(\vec{z_d} \mid \vec{\alpha})$

利用 $\alpha \rightarrow \theta_{d} \rightarrow \vec{z}_{d}$ 这组Dirichlet-multi共轭分布，可以得到
$p(\vec{z} \mid \vec{\alpha})=\prod_{d=1}^{M} p\left(\vec{z}_{d} \mid \vec{\alpha}\right)=\prod_{d=1}^{M} \frac{\Delta\left(\vec{n}_{d}+\vec{\alpha}\right)}{\Delta(\vec{\alpha})}$
$\Delta({\alpha})$ 是归一化参数

如果在第d个文档中，第k个主题的词的个数为： $n_{d}^{(k)}$ , 则对应的多项分布的计数可以表示为
$\vec{n}_{d}=\left(n_{d}^{(1)}, n_{d}^{(2)}, \ldots n_{d}^{(K)}\right)$

利用 $K$ 个主题与词的Dirichlet分布, 而对应的数据有 $K$ 个主题编号的多项分布 $\left(\eta \rightarrow \beta_{k} \rightarrow \vec{w}_{(k)}\right)$

主题对应的词的条件分布 $p(\vec{w} \mid \vec{z}, \vec{\eta})$ 为
$p(\vec{w} \mid \vec{z}, \vec{\eta})=\prod_{k=1}^{K} p\left(\vec{w}_{k} \mid \vec{z}, \vec{\eta}\right)=\prod_{k=1}^{K} \frac{\Delta\left(\vec{n}_{k}+\vec{\eta}\right)}{\triangle(\vec{\eta})}$
在第k个主题中, 第v个词的个数为： $n_{k}^{(v)}$ , 对应的多项分布的计数可以表示为
$\vec{n}_{k}=\left(n_{k}^{(1)}, n_{k}^{(2)}, \ldots n_{k}^{(V)}\right)$

最终我们得到主题和词的联合分布 $p(\vec{w}, \vec{z} \mid \vec{\alpha}, \vec{\eta})$ 如下:
$p(\vec{w}, \vec{z}) \propto p(\vec{w}, \vec{z} \mid \vec{\alpha}, \vec{\eta})=p(\vec{z} \mid \vec{\alpha}) p(\vec{w} \mid \vec{z}, \vec{\eta})=\prod_{d=1}^{M} \frac{\Delta\left(\vec{n}_{d}+\vec{\alpha}\right)}{\Delta(\vec{\alpha})} \prod_{k=1}^{K} \frac{\Delta\left(\vec{n}_{k}+\vec{\eta}\right)}{\Delta(\vec{\eta})}$
有了联合分布就可以求Gibbs采样需要的条件分布 $p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right)$
此时i是个二维下标，对应d篇文档中第n个词

对于下标 $i$ ,由于它对应的词 $w_{i}$ 是可以观察到的，因此我们有:
$p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right) \propto p\left(z_{i}=k, w_{i}=t \mid \vec{w}_{\neg i}, \vec{z}_{\neg i}\right)$

对于 $z_{i}=k, w_{i}=t$ ，只设计d篇文档和第k个主题两个Dirichlet-multi共轭分布
$(\alpha \rightarrow \theta_{d} \rightarrow \vec{z}_{d})$
$\left(\eta \rightarrow \beta_{k} \rightarrow \vec{w}_{(k)}\right)$

其余D+K-2组Dirichlet-multi共轭分布是独立的，从语料库中去除 $z_{i}=k, w_{i}=t$ 并不会改变D+K个Dirichlet-multi共轭结构
因此对于 $\vec{\theta}_{d}, \vec{\beta}_{k}$ , 对应的后验分布为：
$\begin{array}{l} p\left(\vec{\theta}_{d} \mid \vec{w}_{\neg i}, \vec{z}_{\neg i}\right)=\text { Dirichlet }\left(\vec{\theta}_{d} \mid \vec{n}_{d, \neg i}+\vec{\alpha}\right) \\ p\left(\vec{\beta}_{k} \mid \vec{w}_{\neg i}, \vec{z}_{\neg i}\right)=\text { Dirichlet }\left(\vec{\beta}_{k} \mid \vec{n}_{k, \neg i}+\vec{\eta}\right) \end{array}$

$\begin{aligned} p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right) & \propto p\left(z_{i}=k, w_{i}=t \mid \vec{w}_{\neg i}, \vec{z}_{\neg i}\right)=\\E_{\text {Dirichlet }\left(\theta_{d}\right)}\left(\theta_{d k}\right) E_{\text {Dirichlet } \left.\beta_{k}\right)}\left(\beta_{k t}\right) \end{aligned}$
根据Dirichlet分布的期望公式:
$\begin{array}{l} E_{\text {Dirichlet }\left(\theta_{d}\right)}\left(\theta_{d k}\right)=\frac{n_{d, \neg i}^{k}+\alpha_{k}}{\sum_{s=1}^{K} n_{d, \neg i}^{s}+\alpha_{s}} \\ E_{\text {Dirichlet }\left(\beta_{k}\right)}\left(\beta_{k t}\right)=\frac{n_{k, \neg i}^{t}+\eta_{t}}{\sum_{f=1}^{V} n_{k, \neg i}^{f}+\eta_{f}} \end{array}$
最终每个词对应主题的Gibbs采样的条件概率公式为:
$p\left(z_{i}=k \mid \vec{w}, \vec{z}_{\neg i}\right)=\frac{n_{d, \neg i}^{k}+\alpha_{k}}{\sum_{s=1}^{K} n_{d, \neg i}^{s}+\alpha_{s}} \frac{n_{k, \neg i}^{t}+\eta_{t}}{\sum_{f=1}^{V} n_{k, \neg i}^{f}+\eta_{f}}$