LDA与Gibbs Sampling

最新推荐文章于 2024-05-28 10:05:26 发布

fenss

最新推荐文章于 2024-05-28 10:05:26 发布

阅读量370

点赞数 1

文章标签：机器学习自然语言处理

本文链接：https://blog.csdn.net/fenss/article/details/114524667

版权

LDA与Gibbs Sampling

统计推断简介

待补充

$\Beta$ 函数与 $\Gamma$ 函数的性质

待补充

$\text{Beta}$ 、 $\text{Dirichlet}$ 分布与二项、多项分布

待补充

LDA的概念与似然表示

LDA（Latent Dirichlet Allocation）使用概率生成模型的方式描述文档——主题——单词之间的关系，LDA原文的概率图描述如下：

LDA的盘状表示

原文中对每篇文章的每个单词，生成过程描述如下：

Choose $\sim \text{Poisson}(\xi)$ .
Choose $\theta \sim \text{Dir}(\alpha)$ .
For each of the $N$ words $w_n$ :
(a) Choose a topic $z_n \sim \text{Multinomial}(\theta)$ .
(b) Choose a word $w_n$ from $p(w_n| z_n, \beta)$ , a multinomial probability conditioned on the topic $z_n$ .

注意上述概率图的主题——单词分布实际上没有先验分布，并不是完全的“贝叶斯”。

而使用Gibbs采样的LDA，概率图描述如下：

Gibbs采样的LDA盘状表示

注意这里比原文多了一个变量 $\vec{\phi}_k$ ，即对主题——单词分布，也使用Dirichlet先验进行建模，是更彻底的“贝叶斯”，对每篇文章的每个单词，生成过程描述如下：

遍历每个主题 $k$ ：
选择主题——单词分布 $\vec{\phi}_k \sim \text{Dir}(\beta)$ ；
遍历每篇文档 $m$ ：
选择文档——主题分布 $\vec{\theta}_m \sim \text{Dir}(\alpha)$ ；
遍历每个单词 $n$ ：
(a) 选择单词——主题分布 $z_{m, n} \sim \text{Multinomial}(\vec{\theta}_m)$ ；
(b) 选择单词分布 $w_{m, n} \sim \text{Multinomial}(\vec{\phi}_{z_{m, n}})$ 。

符号说明如下：

$M$ ：语料中文档的数量
$K$ ：主题的数量
$V$ ：词表的大小
$\vec{\alpha}$ ：文档→主题的分布超参数
$\vec{\beta}$ ：主题→单词的分布超参数
$\vec{\theta}_m$ ：第 $m$ 个文档主题的分布参数，即 $p (z ∣ d = m)$ 分布的参数，所有文档的参数集记为 $\underline{\Theta} = \{\vec{\theta}_m\}_{m = 1}^M$
$\vec{\phi}_k$ ：第 $k$ 个主题单词的分布参数，即 $p (t ∣ z = k)$ 分布的参数，所有主题的参数集记为 $\underline{\Phi} = \{\vec{\phi}_k\}_{k = 1}^K$
$N_m$ ：每个文档的单词数量，服从Poisson分布，参数为 $\xi$
$z_{m, n}$ ：第 $m$ 个文档的第 $n$ 个单词选择的主题索引
$w_{m, n}$ ：第 $m$ 个文档的第 $n$ 个单词选择的单词索引

根据LDA的定义，某篇文档中某个单词 $w_{m, n}$ 是 $t$ 的概率为：

$p(w_{m, n} = t| \vec{\theta}, \underline{\Phi}) = \sum_{k = 1}^K{p(w_{m, n} = t| \vec{\phi}_k)p(z_{m, n} = k| \vec{\theta}_m)}$

联合概率为：

$p(\vec{w}_m, \vec{z}_m, \vec{\theta}_m, \underline{\Phi}| \vec{\alpha}, \vec{\beta}) = \overbrace{ \underbrace{ \prod_{n = 1}^{N_m}{p(w_{m, n}| \vec{\phi}_{z_{m, n}})p(z_{m, n}| \vec{\theta}_m)} }_{\text{word plate}} p(\vec{\theta}_m| \vec{\alpha}) }^{\text{document plate(1 document)}} \underbrace{ p(\underline{\Phi}| \vec{\beta}) }_{\text{topic plate}}$

因此单个文档的似然函数为：

$\begin{aligned} p(\vec{w}_m| \vec{\alpha}, \vec{\beta}) &= \int{\int{ p(\vec{\theta}_m| \vec{\alpha})p(\underline{\Phi}| \vec{\beta})\prod_{n = 1}^{N_m}{\sum_{z_{m, n}}{ p(w_{m, n}| \vec{\phi}_{z_{m, n}})p(z_{m, n}| \vec{\theta}_m) }} }}\text{d}{\underline{\Phi}}\text{d}{\vec{\theta}_m}\\ &= \int{\int{ p(\vec{\theta}_m| \vec{\alpha})p(\underline{\Phi}| \vec{\beta})\prod_{n = 1}^{N_m}{ p(w_{m, n}| \vec{\theta}_m, \underline{\Phi}) } }}\text{d}{\underline{\Phi}}\text{d}{\vec{\theta}_m} \end{aligned}$

所有语料的似然函数为：

$\vec{\alpha}, \vec{\beta}) = \prod_{m = 1}^M{p(\vec{w}_m| \vec{\alpha}, \vec{\beta})}$

使用Gibbs Sampling进行统计推断

待补充

Collapsed LDA Gibbs sampler

要推导LDA的Gibbs采样，我们可以使用上述的隐变量方法，在LDA中隐藏变量是 $z_{m, n}$ ，即每篇文章每个单词 $w_{m, n}$ 选择的主题，我们不需要引入变量 $\underline{\Theta}$ 和 $\underline{\Phi}$ ，因为它们都可以理解为 $z_{m, n}$ 的统计量（即其他文献描述的 $z_{m, n}$ 是它们的充分统计量），这种把部分变量积分通过积分消去的策略就称为“Collapsed”（塌缩），常应用于Gibbs采样。

现在的目标简化为获取 $p(\vec{z}| \vec{w})$ 的分布：

$p(\vec{z}| \vec{w}) = \frac{p(\vec{z}, \vec{w})}{p(\vec{w})} = \frac{ \prod_{i = 1}^W{p(z_i, w_i)} }{ \prod_{i = 1}^W{\sum_{k = 1}^K}{p(z_i = k, w_i)} }$

这里暂时省略了超参数，该分布的参数空间非常巨大，最难的是分母部分，包含了 $K^W$ 级别单词的求和运算，因此需要引入Gibbs采样。在这个场景下，我们希望能对 $p(z_i| \vec{z}_{\neg i}, \vec{w})$ 采样并模拟 $p(\vec{z}| \vec{w})$ 。通过隐藏变量法，我们可以得到全条件概率公式，因此需要形式化描述联合分布，可以分解为：

$p(\vec{w}, \vec{z}| \vec{\alpha}, \vec{\beta}) = p(\vec{w}| \vec{z}, \vec{\beta})p(\vec{z}| \vec{\alpha})$

第一部分独立于 $\vec{\alpha}$ （条件独立： $\vec{w} \perp\!\!\!\!\perp \vec{\alpha}| \vec{z}$ ），第二部分独立于 $\vec{\beta}$ ，因此两部分可以分别处理，第一部分：

$p(\vec{w}| \vec{z}, \vec{\beta}) = \int{ p(\vec{w}| \vec{z}, \underline{\Phi})p(\underline{\Phi}| \vec{\beta}) }\text{d}\underline{\Phi}$

其中 $p(\underline{\Phi}| \vec{\beta})$ 是已知的先验分布， $p(\vec{w}| \vec{z}, \underline{\Phi})$ 可以理解为所有所有单词出现的概率：

$p(\vec{w}| \vec{z}, \underline{\Phi}) = \prod_{i = 1}^W{p(w_i| z_i)} = \prod_{i = 1}^W{\phi_{z_i, w_i}}$

这里假设了单词的独立性，换个维度统计得到：

$p(\vec{w}| \vec{z}, \underline{\Phi}) = \prod_{k = 1}^K{\prod_{\{i: z_i = k\}}{ p(w_i = t| z_i = k) }} = \prod_{k = 1}^K{\prod_{t = 1}^V{ \phi_{k, t}^{n_k^{(t)}} }}$

这里需要注意下标 $t$ 和 $i$ 的区别，前者是单词表上的索引，后者是单词实例的索引，理解清楚了才能通顺的理解后续的各项统计量。

我们使用 $n_k^{(t)}$ 表示单词 $t$ 被观察为主题 $k$ 的次数，因此完整的第一部分可推导为：

$\begin{aligned} p(\vec{w}| \vec{z}, \vec{\beta}) &= \int{ p(\vec{w}| \vec{z}, \underline{\Phi})p(\underline{\Phi}| \vec{\beta}) }\text{d}\underline{\Phi}\\ &= \int{ \prod_{z = 1}^K{ \frac{1}{\Delta(\vec{\beta})}\sum_{t = 1}^V{ \phi_{z, t}^{n_z^{(t)} + \beta_t - 1} } } }\text{d}\vec{\phi}_z\\ &= \prod_{z = 1}^K{ \frac{ \Delta(\vec{n}_z + \vec{\beta}) }{ \Delta(\vec{\beta}) } }, \vec{n}_z = \{n_z^{(t)}\}_{t = 1}^V \end{aligned}$

类似的对 $p(\vec{z}| \vec{\alpha})$ 进行推导：

$p(\vec{z}| \vec{\alpha}) = \int{ p(\vec{z}| \underline{\Theta})p(\Theta| \vec{\alpha}) }\text{d}\underline{\Theta}$

其中 $p(\Theta| \vec{\alpha})$ 是已知的先验分布， $p(\vec{z}| \underline{\Theta})$ 可通过统计得到：

$p(\vec{z}| \underline{\Theta}) = \prod_{i = 1}^W{p(z_i| d_i)} = \prod_{m = 1}^M{\prod_{k = 1}^K{p(z_i = k| d_i = m)}} = \prod_{m = 1}^M{\prod_{k = 1}^K{ \theta_{m, k}^{n_m^{(k)}} }}$

我们使用 $d_i$ 表示每个单词所属的文档索引， $n_m^{(k)}$ 表示某篇文档中被观察为某个主题的单词计数，因此完整的第二部分可推导为：

$\begin{aligned} p(\vec{z}| \vec{\alpha}) &= \int{ p(\vec{z}| \underline{\Theta})p(\Theta| \vec{\alpha}) }\text{d}\underline{\Theta}\\ &= \int{ \prod_{m = 1}^M{ \frac{1}{\Delta(\vec{\alpha})}\prod_{k = 1}^K{ \theta_{m, k}^{n_m^{(k)} + \alpha_k - 1} } } }\text{d}\vec{\theta}_m\\ &= \prod_{m = 1}^M{ \frac{ \Delta(\vec{n}_m + \vec{\alpha}) }{ \Delta(\vec{\alpha}) } }, \vec{n}_m = \{n_m^{(k)}\}_{k = 1}^K \end{aligned}$

结合两部分得到联合概率：

$p(\vec{z}, \vec{w}| \vec{\alpha}, \vec{\beta}) = \prod_{z = 1}^K{ \frac{ \Delta(\vec{n}_z + \vec{\beta}) }{ \Delta(\vec{\beta}) } } \prod_{m = 1}^M{ \frac{ \Delta(\vec{n}_m + \vec{\alpha}) }{ \Delta(\vec{\alpha}) } }$

然后可以推导Gibbs的采样公式 $p(z_i = k| \vec{z}_{\neg i}, \vec{w})$ ^[1]：

$\begin{aligned} p(z_i = k| \vec{z}_{\neg i}, \vec{w}) &= \frac{p(\vec{w}, \vec{z})}{p(\vec{w}, \vec{z}_{\neg i})} = \frac{p(\vec{w}| \vec{z})}{p(\vec{w}_{\neg i}| \vec{z}_{\neg i})p(w_i)}\frac{p(\vec{z})}{p(\vec{z}_{\neg i})}\\ &\propto \frac{\Delta(\vec{n}_z + \vec{\beta})}{\Delta(\vec{n}_{z, \neg i} + \vec{\beta})} \frac{\Delta(\vec{n}_m + \vec{\alpha})}{\Delta(\vec{n}_{m, \neg i} + \vec{\alpha})}\\ &\propto \frac{ \Gamma(n_k^{(t)} + \beta_t)\Gamma(\sum_{t = 1}^V{n_{k, \neg i}^{(t)} + \beta_t}) }{ \Gamma(n_{k, \neg i}^{(t)} + \beta_t)\Gamma(\sum_{t = 1}^V{n_k^{(t)} + \beta_t}) } \frac{ \Gamma(n_m^{(k)} + \alpha_k)\Gamma(\sum_{k = 1}^K{n_{m, \neg i}^{(k)} + \alpha_k}) }{ \Gamma(n_{m, \neg i}^{(k)} + \alpha_k)\Gamma(\sum_{k = 1}^K{n_m^{(k)} + \alpha_k}) }\\ &\propto \frac{n_{k, \neg i}^{(t)} + \beta_t}{\sum_{t = 1}^V{n_{k, \neg i}^{(t)} + \beta_t}} \frac{n_{m, \neg i}^{(t)} + \alpha_k}{[\sum_{k = 1}^K{n_m^{(k)} + \alpha_k}] - 1} \end{aligned}$

其中 $n_{\cdot, \neg i}^{(\cdot)}$ 表示从相关的文档或主题中排除第 $i$ 个单词，第一个等式通过条件独立性（ $w_i \perp\!\!\!\!\perp \vec{w}_{\neg i}| \vec{z}_{\neg i}$ ）把 $p(w_i)$ 分离出来，且 $p(w_i)$ 是常量，可以约去。第一行到第二行的推导，实际上是分子分母直接套用上述的联合概率公式（分母排除了某个单词），剩下的就是 $\Gamma$ 函数的计算。

另一个思路的分割线（开始）

这里较难理解的是第一行到第二行的内涵，可以换个思路理解^[4]：

$\begin{aligned} p(z_i = k| \vec{z}_{\neg i}, \vec{w}) &\propto p(z_i = k, \vec{z}_{\neg i}, \vec{w})\\ &= p(w_i| z_i = j, \vec{z}_{\neg i}, \vec{w}_{\neg i})p(z_i = j| \vec{z}_{\neg i}, \vec{w}_{\neg i})\\ &= p(w_i| z_i = j, \vec{z}_{\neg i}, \vec{w}_{\neg i})p(z_i = j| \vec{z}_{\neg i}) \end{aligned}$

也可以分解为两部分，第一部分推导：

$p(w_i| z_i = j, \vec{z}_{\neg i}, \vec{w}_{\neg i}) \newline \begin{aligned} &= \int{p(w_i| z_i = j, \phi_j)p(\phi_j| \vec{z}_{\neg i}, \vec{w}_{\neg i})}\text{d}\phi_j\\ &= \int{\phi_{j, w_i} p(\phi_j| \vec{z}_{\neg i}, \vec{w}_{\neg i})}\text{d}\phi_j \end{aligned} \newline \begin{aligned} p(\phi_j| \vec{z}_{\neg i}, \vec{w}_{\neg i}) &\propto p(\vec{w}_{\neg i}| \phi_j, \vec{z}_{\neg i})p(\phi_j)\\ &\sim \text{Dirichlet}(\beta + n_{\neg i, j}^{(w)}) \end{aligned}$

其中 $n_{\neg i, j}^{(w)}$ 表示单词 $w$ 分配到主题 $j$ 的计数（存疑），使用 $\text{Dirichlet}$ 分布的期望公式，可推导：

$p(w_i| z_i = j, \vec{z}_{\neg i}, \vec{w}_{\neg i}) = \frac{n_{\neg i, j}^{(w_i)} + \beta}{n_{\neg i, j}^{(\cdot)} + W\beta}$

其中 $n_{\neg i, j}^{(\cdot)}$ 表示分配到主题 $j$ 的所有单词的计数（存疑）。

类似的第二部分推导：

$\begin{aligned} p(z_i = j| z_{\neg i}) &= \int{p(z_i = j| \theta_d)p(\theta_d| \vec{z}_{\neg i})}\text{d}\theta_d\\ p(\theta_d| \vec{z}_{\neg i}) &\propto p(\vec{z}_{\neg i}| \theta_d)p(\theta_d)\\ &\sim \text{Dirichlet}(n_{\neg i, j}^{(d)} + \alpha) \end{aligned}$

其中 $n_{\neg i, j}^{(d)}$ 表示除第 $i$ 个单词之外分配到第 $j$ 个主题的单词计数。

$p(z_i = j| \vec{z}_{\neg i}) = \frac{n_{\neg i, j}^{(d)} + \alpha}{n_{\neg i, \cdot}^{(d)} + K\alpha}$

其中 $n_{\neg i, \cdot}^{(d)}$ 表示除第 $i$ 个单词之外所有单词分配到第 $d$ 篇文档的主题计数。

最终Gibbs采样的条件概率公式为：

$p(z_i = j| \vec{z}_{\neg i}, \vec{w}) \propto \bigg( \frac{n_{\neg i, j}^{(w_i)} + \beta}{n_{\neg i, j}^{(\cdot)} + W\beta} \bigg) \bigg( \frac{n_{\neg i, j}^{(d)} + \alpha}{n_{\neg i, \cdot}^{(d)} + K\alpha} \bigg)$

另一个思路的分割线（结束）

参数估计

通过Gibbs采样得到了 $\vec{z}$ 的样本后，我们就可以用这些样本模拟 $\vec{z}$ 的分布，然后得到需要的各种统计量，设 $\mathcal{M} = \{\vec{w}, \vec{z}\}$ ，有：

$p(\vec{\theta}_m| \mathcal{M}, \vec{\alpha}) = \frac{1}{Z_{\theta_m}}\prod_{n = 1}^{N_m}{ p(z_{m, n}| \vec{\theta}_m)p(\vec{\theta}_m| \vec{\alpha}) } = \text{Dir}(\vec{\theta}_m| \vec{n}_m + \vec{\alpha}) \newline p(\vec{\phi}_k| \mathcal{M}, \vec{\beta}) = \frac{1}{Z_{\phi_k}}\prod_{\{i: z_i = k\}}{ p(w_i| \vec{\phi}_k)p(\vec{\phi}_k| \vec{\beta}) } = \text{Dir}(\vec{\phi}_k| \vec{n}_k + \vec{\beta})$

通过 $\text{Dirichlet}$ 的期望计算性质，可以得到参数 $\vec{\phi}_k$ 和 $\vec{\theta}_m$ 的估计：

$\phi_{k, t} = \frac{n_k^{(t)} + \beta_t}{\sum_{t = 1}^V{n_k^{(t)} + \beta_t}} \newline \theta_{m, k} = \frac{n_m^{(k)} + \alpha_k}{\sum_{k = 1}^K{n_m^{(k)} + \alpha_k}}$