26[NLP训练营]从LDA文章生成到Gibbs吉布斯采样

最新推荐文章于 2022-08-31 18:10:20 发布

oldmao_2000

最新推荐文章于 2022-08-31 18:10:20 发布

阅读量402

点赞数 1

分类专栏： NLP Bootcamp（完结）

本文链接：https://blog.csdn.net/oldmao_2001/article/details/105272696

版权

NLP Bootcamp（完结）专栏收录该内容

30 篇文章 19 订阅

订阅专栏

文章目录

前言
LDA文章的生成过程（非官方）
- 生成的例子
文章的生成（官方）
Gibbs sampling

公式输入请参考：在线Latex公式

前言

要搞清楚Gibbs，先要搞清楚通过LDA方法文章是怎么生成的，再反过来考虑怎么从文章里面训练模型，学习参数。
生成文章是一个过程，即process。我们的目标是生成document。也就是用一个生成模型来干这个事情。
从看不见的参数集合，生成看得见的文档。如果是从文档反推是什么参数生成我们的文档，这个过程就是inference。

LDA文章的生成过程（非官方）

第一步：确定主题
这个步骤有两种情况：
a：一个文章只有一个主题（朴素贝叶斯干这个事）
b：一个文章对应多个主题（这个是我们要讨论的）
在这里插入图片描述
第二步：根据主题的分布，生成文章，也就是要生成一堆的单词（类似LDA是不考虑单词的顺序的）
词表是已知的：

过程大概如下：
循环N次（N为要生成的单词格式）
step1按主题概率分布选择一个主题，例如体育
step2从选定主题中根据词库中的单词在该主题的概率分布选择一个单词，例如篮球

生成过程了解了以后（从主题分布和词表的分布来生成），就是理解反向inference的过程：
我们现在有文档，反推词表分布概率和主题分布概率。LDA是无监督算法（不是分类模型，相对于一个聚类模型），文档不需要任何的标注。LDA通常用于特征工程，例如在情感分析中，可以用LDA算法抽取文章的主题，然后用抽取的主题作为文章的特征向量（和其他特征向量结合在一起）进行下游的情感分析。

生成的例子

假设已知：
在这里插入图片描述
例如生成文档1（Doc1），它的主题分布对应的参数为 $\theta_1$ ，用这个参数来采样主题，例如：

然后根据这些个主题生成单词：

文章的生成（官方）

$K$ ：主题的个数
$N$ ：要生成的文章数量
$N_i$ ：文章 $i$ 中的单词数量
$\theta_i$ ：文章 $i$ 的主题分布（模型参数，未知，要先生成它，用 $\alpha$ 来生成它）
$Z_{ij}$ ：第 $i$ 个文章中第 $j$ 个单词的主题（隐变量）
$\alpha,\beta$ 是超参数，分别生成 $\theta$ （所有文章的 $\theta$ 都是同一个 $\alpha$ 生成的）和 $\phi$ ：词的分布（模型参数）
下图中外面的框代表对文章的循环（ $N$ 次），里面的框代表对文章的单词的嵌套循环(（ $N_i$ 次）
下图红色数字代表依赖关系，其中 $w_{ij}$ 同时依赖两个玩意，一个是 $Z_{ij}$ ，一个是 $\phi$ 。
在这里插入图片描述

再贴一个官方图：

1. $\alpha生成\theta$

首先一个条件是所有的 $\theta_i$ 对应的主题分布概率累加和为1.
例如：
这个文章主题有3个：
在这里插入图片描述
这里 $\theta_{i1}+\theta_{i2}+\theta_{i3}=1$
第二个条件是： $\theta_{ij}\in [0,1]$
要想生成这样的一个分布就是用狄利克雷Dirichlet distribution分布（当然还有别的方法来做这个事情，例如： $\theta_i=softmax(\theta_i)$ ，但是狄利克雷分布比较好计算，刚好有一个参数 $\alpha$ ，采样出来的东西也满足上面两个条件）。记为：
$\theta_i\sim Dir(\alpha)$
如果用高斯分布 $\theta_i\sim N(\mu,\Sigma)$ 来计算，采样出来的东西不能满足： $\sum\theta_i=1$
这里有介绍，要翻墙
https://en.wikipedia.org/wiki/Dirichlet_distribution
这里涉及到一个关于参数生成的一些经验，根据参数的定义域，我们可以选择不同的生成方式，例如，当 $\theta_i\in(0,1),\sum\theta_i\ne1$ 则可以选用Gamma分布来生成参数。

2. $\theta_i生成Z_{ij}$

$Z_ij\sim Multinomial(\theta_i)$
如果i=3，那么：

3. $\beta生成\phi$

跟上面步骤1一样的，每个 $\phi_k$ 的分布累加为1， $\phi_{ki}\in [0,1]$ ，满足这两个条件可从 $\beta$ 的狄利克雷分布生成，记为：
$\phi_k\sim Dir(\beta)$

4. $Z_{ij}和\phi生成w_{ij}$

这里和步骤2类似，如下图所示，当 $Z_{ij}=1$ 时候，从第一列 $\phi_1$ 采样：
在这里插入图片描述
$w_ij\sim Multinomial(\phi_{Z_{ij}})$

整体生成过程

在这里插入图片描述

Gibbs sampling

Gibbs sampling的由来

由于上面的分析可知，如果要反向估计 $\{\theta,\phi,Z\}$ ，也就是要求：
$P(\theta,\phi,Z|w,\alpha,\beta)$
这个是很难求的，只能用近似的方法来求，大概意思就是通过采样来近似，这个方法就是Gibbs sampling。
同时采样多个参数 $\{\theta,\phi,Z\}$ 是很困难的，把它展开：
$\{\theta_1,\theta_2,...\phi_1,\phi_2,...Z_1,Z_2,...\}$
这个时候如果采样 $\theta_1$ ，那么我们假定其他参数是已知的。以此类推。这个采样方法就是Gibbs sampling。类似coordinate descent。

$\theta_i$ 的采样

根据上面的分析，可以写为：
$\theta_i\sim P(\theta_i|\alpha,Z,w,\phi,\beta)$
根据Markov Blanket定理，就是不直接相关的条件（不影响 $\theta$ ,或者不依赖 $\theta$ ）可以去掉，例如：
在这里插入图片描述
这里和A4不直接相关的A8，A3等可以从条件概率中去掉，他们两个的信息包含在了A5里面，所以A5保留，A6A7是由A4生成的，也保留。最后变成：P(A4|A1A2A5A6A7)

因此，根据上图的生成关系，上面的 $\theta_i$ 可以写为：
$\theta_i\sim P(\theta_i|\alpha,Z,w,\phi,\beta)\\ =P(\theta_i|\alpha,Z)$
由于 $\theta_i$ 只依赖于当前文章（第 $i$ 篇文章）的单词，所以其他文章的单词，或者说主题可以不要：
$\theta_i=P(\theta_i|\alpha,Z_{i\cdot})$
上面的概率是已知条件中的 $\alpha,Z_{i\cdot}$ ，求 $\theta_i$ ，是明显的后验概率的形式，因此根据我们在学习前面MAP的经验，知道，后验概率正比于likelyhood×先验概率。
这里面likelyhood就是用 $\theta_i$ 观察到 $Z_{i\cdot}$ 的概率（写出来就是 $P(Z_{i\cdot}|\theta_i)$ ，这个就是上面提到的multinomial），先验概率则是用 $\alpha$ 生成 $\theta_i$ 的概率（写出来就是 $P(\theta_i|\alpha)$ 这个就是上面提到的狄利克雷分布 $\theta_i\sim Dir(\alpha)$ ），因此可以得到：
$\theta_i\propto P(\theta_i|\alpha)P(Z_{i\cdot}|\theta_i)$
根据狄利克雷的PDF（概率密度函数）进行展开
在这里插入图片描述
上图来自百度百科
$P(\theta_i|\alpha)=\cfrac{1}{\Beta(\alpha)}\prod_{k=1}^K\theta_{ik}^{\alpha_{k}-1}$
多项式分布（Multinomial Distribution）也可以展开
$P(Z_{i\cdot}|\theta_i)=\prod_{j=1}^{N_i}\prod_{k=1}^K\theta_{ik}^{I(Z_{ij}=k)}$
$I(Z_{ij}=k)$ 表示当 $Z_{ij}=k$ 成立时表达式为1，否则为0.
整理合并：
$\begin{aligned}\theta_i&\propto\cfrac{1}{\Beta(\alpha)}\prod_{k=1}^K\theta_{ik}^{\alpha_{k}-1}\prod_{j=1}^{N_i}\prod_{k=1}^K\theta_{ik}^{I(Z_{ij}=k)}\\ &=\cfrac{1}{\Beta(\alpha)}\prod_{k=1}^K\theta_{ik}^{\sum_{j=1}^{N_i}I(Z_{ij}=k)+\alpha_{k}-1}\\ &=Dir(\alpha+\sum_{j=1}^{N_i}I(Z_{ij}=k))\end{aligned}$
下面来说下这个公式的意思，现有一个狄利克雷分布来产生参数，然后由观测数据( $\sum_{j=1}^{N_i}I(Z_{ij}=k)+\alpha_{k}-1$ )来对参数进行修正。例如刚开始由 $\alpha$ 生成的参数 $\theta_i\sim Dir(\alpha)$ 是这个样子： $\alpha=(1,1,1,1)$
然后在第 $i$ 个文章中，有 $n_{ij}$ 个单词背分类为主题 $j$ ，例如： $n_{i1}=2,n_{i2}=3,n_{i3}=2,n_{i4}=3,$
以上信息是可以从现有数据中统计出来的，修正后： $\alpha=(1+2,1+3,1+2,1+3)=(3,4,3,4)$
最后小结， $\theta_i$ 的估计可以写为：
$\theta_i\sim Dir(\alpha+\sum_{j=1}^{N_i}I(Z_{ij=k}))$

Z的采样

用上面 $\theta_i$ 的套路，写出 $Z_{ij}$ （这个玩意是离散值）的概率，
$\begin{aligned}P(Z_{ij}&=k|w_{ij},\phi_k,\theta_i)\\&\propto P(Z_{ij}=k|\theta_i)\cdot P(w_{ij}|Z_{ij}=k,\phi_k)\\ &=\theta_{ik}\cdot\phi_{k,w_{ij}}\\&=\exp(\log\theta_{ik}+\log\phi_{k,w_{ij}})\end{aligned}$

$\phi$ 的采样略了。。。

小结

吉布斯采样的思想和之前在讲LASSO的时候提到过一个东西很相似，就是coordinate descent，就是固定其他变量，求其中一个变量。吉布斯采样可以用在所有的贝叶斯估计中
在这里插入图片描述

这个算法是有缺点的：就是参数个数比较多，不断采样上面三个参数，注意是有下标的（例如： $Z_{ij}$ 是和文档中的单词个数有关）
因此我们要想，到底有没有必要对所有的参数进行采样？
其实有些情况是不必要的，例如：一个文档中有6个单词：
在这里插入图片描述
每个单词所属的主题分别是：

以上就是相当于 $Z_{ij}$ 是知道的， $Z_{ij}$ 就是单词主题的分布，我们就可以用 $Z_{ij}$ 来估计参数 $\theta_i$ (文章主题的分布)：

类似也可以用 $Z_{ij}$ 来估计 $\phi$ ，通过这里例子，我们看到，没有必要采样所有参数，只需要采样 $Z_{ij}$ ，然后用 $Z_{ij}$ 来估计其他参数就可以了。
这样的估计方式就叫做collapsed gibbs sampling。上面用 $Z_{ij}$ 来估计参数 $\theta_i$ 和 $\phi$ 的过程就叫collapsed 或者Integral。（从概率上来看实际就是边缘化的操作）
collapsed gibbs sampling下节分析。

oldmao_2000

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
26[NLP训练营]从LDA文章生成到Gibbs吉布斯采样

文章目录前言文章的生成过程（非官方）生成的例子文章的生成（官方）1.alpha生成theta3.beta生成phi2.theta_i生成Z_ij4.Z_ij和phi生成w_ij整体生成过程Gibbs samplingGibbs sampling的由来theta_i的采样Z的采样小结collapsed gibbs sampling第一步第二步看分子第一项第二项联合第一、第二项第二步看分母分子分母...
复制链接

扫一扫