【learning PGM in R】第七章概率混合模型——7.5 潜在狄利克雷分配LDA

最新推荐文章于 2022-06-11 11:01:07 发布

板砖板砖我是兔子

最新推荐文章于 2022-06-11 11:01:07 发布

阅读量734

点赞数 1

分类专栏：概率图模型文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_43749398/article/details/121957604

版权

概率图模型专栏收录该内容

5 篇文章 3 订阅

订阅专栏

首先说明，机器学习领域有很多缩写相同，但所指代的单词不同的词语，如LR，既是Linear Regression（线性回归），又可指Logistic Regression（逻辑回归）。LDA也是，既可以指Latent Dirichlet Allocation，也可指Linear Disciminant Analysis（线性判别式分析），初学者不要搞混。(我也是初学者来着)

书中对隐迪利克雷分配的介绍相较于MLAPP好理解一些。本文也会结合《统计学习方法》中的内容加以补充，只想看概率图模型的请直接跳转到5.3。

文章目录

5.1 狄利克雷分布Dirichlet Distribution
5.2 LDA模型定义
5.3 LDA的概率图模型
- 5.3.1 表示 represent
- 5.3.2 解释 illustration
5.4 LDA的公式求解
- 5.4.1 LDA概率公式
- 5.4.2 LDA参数求解
参考文献

5.1 狄利克雷分布Dirichlet Distribution

由于书中直接开始讲隐狄利克雷分配，于是笔者好奇心重去查了些狄利克雷分布的相关内容（笔者基础差），整理到另一篇文章里了，需要的下面是链接：

链接: 【Basis】狄利克雷分布-CSDN博客

5.2 LDA模型定义

隐狄利克雷分配是文本（document）集合的生成模型。模型假设文本由一个又一个话题（topic）组成，话题又由一个又一个单词组成。反过来说，每个单词在每个话题中占的比例不同，每个话题在每个文本占的比例也不同。

5.2.1 LDA模型的假设

①单词和话题的分布都是多项式分布，其先验分布都是狄利克雷分布。

②文本的生成过程：先有单词和话题的先验分布（狄利克雷分布）生成单词和话题的多项分布，由单词的多项分布生成一个话题序列，然后再由话题的多项分布生成单词序列，也就是文本。

③隐变量：在整个生成过程中，只有文本我们是知道的。各个话题的单词分布、文本的话题分布、话题序列的参数我们都不知道，即为隐变量。

其中假设①需要说明一下，这里用到了共轭分布的性质。简单来说就是如果多项分布的先验分布是狄利克雷分布，那么其后验分布也是狄利克雷分布，具体过程请看7.5.1狄利克雷分布。

5.2.2 LDA模型的变量

根据上面的内容，我们知道模型包含文本、话题、单词三种数据。下面确定我们的数学表达符号（for precise notation）。

文本: $D=\left \{ d_{1} ,d_{2} ,...,d_{m} \right \} _{m=1}^{M}$ ， $d_{m}$ 指第 $m$ 个文本，一共有 $M$ 个文本。 $d_{m}=\left \{ d_{m1},d_{m2},...,d_{mN} \right \}_{n=1}^{N}$ ， $d_{mn}$ 指第 $m$ 个文本里的第 $n$ 个单词，共有 $N_{m}$ 个单词。所以 $D$ 实际上是一个 $M\times N_{m}$ 的矩阵数组。

话题: $Z=\left \{ z_{1} ,z_{2} ,...,z_{k} \right \} _{k=1}^{K}$ ， $z_{k}$ 指第 $k$ 个话题，一共有 $K$ 个话题。

单词: $W=\left \{ w_{1} ,w_{2} ,...,w_{v} \right \} _{v=1}^{V}$ ， $w_{v}$ 指第 $v$ 个单词，一共有 $V$ 个单词。

5.3.3 LDA模型中的变量分布

首先解释一下超参数（hyperparameter）。作为先验分布的狄利克雷分布的参数称为超参数，一般由我们事先给定。在没有先验知识的情况下，超参数向量的所有分量均为1。

话题分布：
文本 $d_{m}$ 中的话题分布 $p\left (z|d_{m} \right )$ ，参数为 $\theta=\left \{ \theta _{1},\theta _{2},...,\theta _{M} \right \}_{m=1}^{M}$ ， $\theta _{m}=\left \{ \theta _{m1},\theta _{m2},...,\theta_{mk} \right \}_{k=1}^{K}$ ，所以 $\theta$ 实际上是一个 $M\times K$ 的参数矩阵。
先验分布超参数为 $\alpha=\left \{ \alpha _{1},\alpha _{2},...,\alpha _{k} \right \}_{k=1}^{K}$ 。

单词分布：
话题 $z_{k}$ 中的单词分布 $p\left (w|z_{k} \right )$ ，参数为 $\varphi=\left \{ \varphi _{1},\varphi _{2},...,\varphi _{K} \right \}_{k=1}^{K}$ ， $\varphi _{k}=\left \{ \varphi _{k1},\varphi _{k2},...,\varphi _{kv} \right \}_{v=1}^{V}$ ，所以 $\varphi$ 实际上是一个 $K\times V$ 的参数矩阵。
先验分布超参数为 $\beta=\left \{ \beta _{1},\beta _{2},...,\beta _{v} \right \}_{v=1}^{V}$ 。

5.2.4 LDA模型的生成过程

已知文本集合 $D$ ，话题集合 $Z$ ，单词集合 $W$ ，单词分布先验分布超参数 $\alpha$ ，话题分布先验分布超参数 $\beta$

步骤1：生成话题的单词分布
$\varphi\sim Dir(\beta)$ ，随机生成 $K$ 个 $\varphi_{k}$ ，作为 $K$ 个单词多项式分布的参数。 $p\left (w|z_{k} \right )\sim Mult(\varphi_{k})$

步骤2：生成文本的话题分布
$\theta\sim Dir(\alpha)$ ，随机生成 $M$ 个 $\theta_{m}$ ，作为 $M$ 个话题多项式分布的参数。 $p\left (z|d_{m} \right )\sim Mult(\theta_{m})$

步骤3：生成文本
从第一个文本第一个单词开始，每一步生成一个话题，一个单词。共随机生成 $M$ 个文本，每个文本 $N_{m}$ 个单词。

步骤3-1： 根据 $Mult(\theta_{m})$ 生成一个话题 $z_{mn}$
步骤3-2： 根据 $Mult(\varphi_{z_{mn}})$ 生成一个单词 $w_{mn}$ 。

5.3 LDA的概率图模型

5.3.1 表示 represent

图中结点（一般算法中多称结点而非节点）表示随机变量，空心结点表示隐变量，实心结点表示观测变量。有向边表示概率依存关系，矩形表示重复，板块内数字表示重复次数。

图3-1 LDA的概率图模型

5.3.2 解释 illustration

K框框：

结点 $\beta$ 指向结点 $\varphi_{k}$ ，矩阵下标为 $K$ ：从满足超参数为 $\beta$ 的狄利克雷分布随机生成参数 $\varphi_{k}$ ，重复 $K$ 次，得到话题的单词分布 $K\times V$ 的参数矩阵。
M框框：

结点 $\alpha$ 指向结点 $\theta_{m}$ ，矩阵下标为 $M$ ：从满足超参数为 $\alpha$ 的狄利克雷分布随机生成参数 $\theta_{m}$ ，重复 $M$ 次，得到文本的话题分布 $M\times K$ 的参数矩阵。

$N_{m}$ 框框：

①结点 $\theta_{m}$ 指向结点 $z_{mn}$ ：从满足参数为 $\theta_{m}$ 的第 $m$ 个话题（多项式）分布随机生成话题 $z_{mn}$ 。

②结点 $\theta_{m}$ 和结点 $\varphi_{k}$ 指向 $z_{mn}$ ：找到 $z_{mn}$ 对应的话题的单词分布，满足参数为 $\varphi_{k=z_{mn}}$ 。从该分布中随机生成单词 $w_{mn}$ 。

矩阵下标为 $N_{m}$ ，重复①②步骤 $N_{m}$ 次。得到长度为 $N_{m}$ 的话题序列以及长度为 $N_{m}$ 的单词序列。

5.4 LDA的公式求解

5.4.1 LDA概率公式

根据图3-1， $\alpha,\beta$ 是已知的超参数，我们可以写出基础的条件概率公式： $p(w,z,\theta,\varphi|\alpha ,\beta)=\prod_{k=1}^{K}p(\varphi _{k}|\beta ) \prod_{m=1}^{M}p(\theta_{m}|\alpha )\prod_{n=1}^{N_{m}}p(z_{mn}|\theta_{m})p(w_{mn}|\varphi_{z_{mn}})$
累乘符号上的参数就对应着概率图模型的框框，比较好理解（吧？）。

5.4.2 LDA参数求解

接下来就是求未知的 $\theta, \varphi, z$ 了，经典方法是对隐变量进行积分，得到文档的边缘分布，然后最大化边缘概率。 $\theta$ 和 $\varphi$ 都是连续型变量， $z$ 是离散型变量。所以要对 $\theta$ ， $\varphi$ 积分，对 $z$ 求和。
对 $\theta$ 积分（ $\alpha$ 生成的所有文本，共有 $M$ 个）： $\int p(\theta_{m}|\alpha )d \theta_{m}$
对 $\varphi$ 积分（ $\beta$ 生成的所有话题，共有 $K$ 种）： $\int p(\varphi _{k}|\beta )d\varphi _{k}$
对 $z$ 求和（单词对应的所有话题，共有 $K$ 种）： $p(z_{mn}|\theta_{m},\varphi_{z_{mn}} )=\sum_{l=1}^{K}p(z_{mn=l}|\theta_{m})p(w_{mn}|\varphi_{z_{mn}=l})$
最终，超参数 $\alpha,\beta$ 给定条件下所有文本的生成概率为
$p(w|\alpha ,\beta)= \prod_{k=1}^{K}\int p(\varphi _{k}|\beta ) \left [\prod_{m=1}^{M}\int p(\theta_{m}|\alpha ) \prod_{n=1}^{N_{m}}\left [ \sum_{l=1}^{L}p(z_{mn=l}|\theta_{m})p(w_{mn}|\varphi_{z_{mn}=l}) \right ] d \theta_{m} \right ]d\varphi _{k}$
这个公式无法计算，因此需要引入近似推断的方法处理。主要有两种：Gibbs采样和变分推断。后续博主会写一篇文章介绍变分推断（varational inference）。

参考文献

[1]David Bellot. Learning Probabilistic Graphical Models in R. Packt Publishing, 2016

[2]Murphy, K.P… Machine Learning A Probailistic Perspective. The MIT Press, 2012

[3]李航.《统计学习方法》（第二版）.清华大学出版社, 2019

ps：文中方程都是KeTex手打的，另外我也是刚开始学的小白，笔记可能会有问题，欢迎指正！

板砖板砖我是兔子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
【learning PGM in R】第七章概率混合模型——7.5 潜在狄利克雷分配LDA

Learning PGM in R 第七章第五节潜在狄利克雷分配，包含狄利克雷分布的讲解、LDA的模型定义、概率图模型表示和数学公式表示。
复制链接

扫一扫