LDA（主题模型）

最新推荐文章于 2024-06-10 12:05:20 发布

风吹草地现牛羊的马

最新推荐文章于 2024-06-10 12:05:20 发布

阅读量426

点赞数

分类专栏：机器学习 NLP

本文链接：https://blog.csdn.net/mch2869253130/article/details/101685590

版权

机器学习同时被 2 个专栏收录

97 篇文章 5 订阅

订阅专栏

NLP

42 篇文章 4 订阅

订阅专栏

发现了一篇讲解的非常好的LDA系列。
LDA主题模型学习笔记1：模型建立
 LDA主题模型学习笔记2：求解隐变量和模型参数（EM思想）
LDA主题模型学习笔记3：变分推断(E-step)
LDA主题模型学习笔记3.5：变分参数推导
 LDA主题模型学习笔记4：求解模型参数(M-step)

在讲解LDA之前，如果有对贝叶斯估计、共轭分布、迪利克雷分布、多项式分布不懂的请看我之前的博客：
最大似然估计（MLE）、最大后验估计（MAP）和贝叶斯估计
 共軛分布与贝叶斯估计
 二项式定理与二项分布、多项式定理与多项分布

LDA的概率解释

LDA是一种文档主题生成模型，包括文档、主题、单词三层关系，LDA认为一篇文档中的每个单词应该给是这样生成的：首先以一定的概率选择了某个主题，之后再根据这个主题选择了某个单词。
上面这句话用概率来解释就是：
$\tag{1}P(W|D) = P(W|T)P(T|D) \\ = P(W,T|D)$
上面的式子中,D是某一篇文档，T是文档D对应的主题集合，W是根据T生成的单词。

对于（1）式可能会有人困惑，为什么 $P (W ∣ D) = = P (W, T ∣ D)$ ，我觉得可以这样理解：因为给定一篇文档的时候，我们并不知道这篇文档的主题是哪些，但是这些主题是隐含在文档中的，所以是一个隐变量，所以二者应该是相等的。

LDA是基于贝叶斯估计的，谈到贝叶斯估计就要涉及到：似然概率、先验概率和后验概率。在（1）式中， $P (W ∣ T) 和 P (T ∣ D)$ 都是后验概率，根据贝叶斯公式应该有：
$\tag{2} P(T|D) = {P(D|T)P(T) \over P(D)}$
$\tag{3} P(W|T) = {P(T|W)P(W) \over P(T)}$
所以（1）式可以进一步分解为（2）、（3）的乘积，在（2）和（3）式中， $P (T) 是主题的先验概率， P (D ∣ T) 是主题的似然函数$
$P (W) 是单词的先验概率， P (T ∣ W) 是单词的似然函数$

在LDA模型中，假设一篇文档可以有 $k$ 个主题，一个主题下有多个属于这个主题的单词。
如果我们用一个多面的骰子来模拟主题，那么确定一篇文档D有哪几个主题就相当于是抛掷这面骰子k次，朝上的那个面对应的主题作为文档D的一个主题。确定选择这个主题的哪个单词作为文档D的一个单词也可以用骰子来模拟。

通过二项式定理与二项分布、多项式定理与多项分布我们可以知道，上面的两个过程就是多项式分布，也就是每篇文档的主题分布（主题的似然函数，也就是 $L (T ∣ D) = P (D ∣ T)$ ）是多项式分布，每个主题下的词分布（词的似然函数，也就是 $L (W ∣ T) = P (T ∣ W)$ ）也是多项式分布。

在以前的博客中，我说明了贝叶斯估计与MAP和MLE的区别，以及贝叶斯估计经常用到的一些共轭分布。LDA也使用了共轭分布来简化（2）和（3）后验概率的计算。
由于多项式分布的共轭先验为狄利克雷分布，所以 $P (T) 和 P (W)$ 是狄利克雷分布。

LDA模型的参数

在这里插入图片描述

矩形内部的参数：
K：一篇文档的主题的个数
N：一篇文档中单词的个数
M：需要分析的文档的个数
$\alpha$ 是文档的主题的先验分布（狄利克雷分布）的参数
$\beta$ 是主题的单词的先验分布（狄利克雷分布）的参数， $\beta$ 是一个二维矩阵，行表示主题，列表示单词。
$\varphi(k)$ 是主题k的单词分布（多项式分布）
$\theta(i)$ 是文档i的主题分布（多项式分布）
$w (i . j)$ 是文档i的第j个单词
$z (i, j)$ 是 $w (i, j)$ 的主题分配

LDA模型有两个坛子，一个坛子A中盛放的是若干个 doc-topic骰子，另一个坛子B中盛放的是若干个 topic-word骰子。

对于一篇有k个主题，n个词的文档i来说，从坛子A中只选择一个doc-topic骰子，然后抛掷n次，每一次根据对应的topic从B中选择对应的topic-word骰子，然后抛掷一次，选择一个单词，这样就得到了文档i的n个单词。

模型图的解释：

$\theta$ 服从参数为 $\alpha$ 的狄利克雷分布（ $\theta是一个k维的向量，向量的每一维表示某个主题的概率，和为1$ ），用概率公式来表达就是 $p(\theta|\alpha) = Dirichlet(\alpha) = {\Gamma(\sum_{i=1}^k \alpha_{i}) \over \prod_{i=1}^k \Gamma(\alpha_i)}\theta_{1}^{\alpha_{1}-1}...\theta_{k}^{\alpha_{k}-1}$ --------------------------------通过 $\alpha$ 得到文档i的主题分布 $\theta$ （相当于是为第i篇文档选择一个doc-topic 骰子 $\theta$ ）
根据主题向量 $\theta$ 生成文档i的第j个词的主题 $z_{i,j}$ （换句话说就是 $z_{i,j}服从参数为\theta的多项式分布$ ），用概率公式来表达就是 $p(z_{i,j}|\theta) = multi(\theta) = {N! \over r_1!r_2!...r_k!}\theta_1^{r_1}\theta_2^{r_2}...\theta_k^{r_k}，其中N表示文档i词的个数，r_{k}表示第k个主题选择的次数，\sum r_{k}=N$ ---------------从主题分布 $\theta$ 中确定第j个词的主题 （投掷doc-topic骰子 $\theta$ ，选择一个topic $z_{i,j}$ ）
根据主题 $z_{i,j}$ 的生成该主题对应的词语分布 $\varphi_{z_{i,j}}$ （换句话说就是 $\varphi_{z_{i,j}}$ 服从参数为 $\beta$ 的迪利克雷分布）， $\varphi_{z_{i,j}}$ 是一个 $N$ 维的向量，每一维表示选择某个单词的概率。用概率公式来表达就是 $p(\varphi_{z_{i,j}}|\beta)= Dirichlet(\beta)$ ----------------得到该主题的词分布 （根据选择的topic $z_{i,j}$ 选择对应的topic-word骰子 $\varphi_{z_{i,j}}$ ）
根据词语分布 $\varphi_{z_{i,j}}$ 生成文档i的第j个单词 $w_{i,j}$ （ $w_{i,j}$ 服从参数为 $\varphi_{z_{i.j}}$ 的多项式分布），也就是 $w_{i,j} = multi(\varphi_{z_{i,j}})$ ---------------------根据上述的词分布得到词 （投掷topic-word骰子 $\varphi_{z_{i,j}}$ ，得到词）。

最终模型参数是 $\alpha, \beta$ ，隐变量是 $\theta, z, \varphi$ ， $W$ 是文档的单词集合。针对某一篇文档，上述变量的联合概率分布是：
$p(\theta, z, \varphi, W| \alpha, \beta) = p(\theta|\alpha) \prod_{n=1}^Np(z_{n}|\theta)p(\varphi_{z_{n}}|\beta)p(w_{n}|\varphi_{z_{n}})$
为了得到关于 $W$ 的似然函数，要对隐变量 $\theta, z, \varphi$ 进行积分或者求和。最后得到 $W$ 的边缘概率也就是似然函数。
$\begin{aligned} p(W| \alpha, \beta) =& \int_{\theta}\int_{\varphi}\sum_{z}p(\theta, z, \varphi, W| \alpha, \beta) \\ =& \int_{\theta}\int_{\varphi}\sum_{z}p(\theta|\alpha) \prod_{n=1}^Np(z_{n}|\theta)p(\varphi_{z_{n}}|\beta)p(w_{n}|\varphi_{z_{n}}) \end{aligned}$
这样就得到了模型的似然函数，最后就是要最大化似然函数，至此我们的LDA模型的生成过程就阐述清楚了，我们建立了一个从document->topic->word的生成过程。但要求解LDA模型的过程是与上述过程相反的，求解LDA模型的过程是word->topic->document，这一点要注意。

参考：https://www.cnblogs.com/pinard/p/6831308.html
https://www.cnblogs.com/yifdu25/p/8099826.html

风吹草地现牛羊的马

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LDA（主题模型）

https://www.cnblogs.com/pinard/p/6831308.htmlhttps://www.jianshu.com/p/aed4014b069dhttps://www.cnblogs.com/yifdu25/p/8099826.htmlhttps://www.jianshu.com/p/fa97454c9ffdhttps://blog.csdn.net/huagong...
复制链接

扫一扫