LDA 主题模型

最新推荐文章于 2024-04-24 15:30:16 发布

原创

最新推荐文章于 2024-04-24 15:30:16 发布

· 5.9k 阅读

30 ·

版权

文章标签：

#LDA

LDA（Latent Dirichlet Allocation）是一种主题模型，用于文本建模。本文介绍了LDA的概率图模型，详细解释了其生成过程，并探讨了模型求解的总体思路，包括通过Gibbs采样计算z⃗的后验概率分布。此外，还讨论了LDA在新文档topic分布计算中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

我们生活中总是产生大量的文本，分析这些观察到的语料库是如何生成的就需要对文本进行建模。常见的文本建模方法包括：Unigram、PLSA、LDA 、词向量模型（CBOW、Skip-gram）等。LDA模型是一种主题模型（topic model），属于词袋（不关心词与词之间的次序）模型。

模型描述

人类所产生的所有语料文本我们都可以看成是上帝抛骰子生成的。我们观察到的只是上帝玩这个游戏的结果——词序列构成的语料，而上帝玩这个游戏的过程对我们来说是个黑盒子。所以在统计文本建模中，我们希望猜测出上帝是如何玩这个游戏的。具体一点，最核心的问题是：

上帝都有什么样的骰子？
上帝是如何抛这些骰子的？

第一个问题就对应着模型包含哪些参数，第二个问题就对应着游戏的规则，上帝可以按照一定的规则抛骰子从而产生词序列。

LDA算法：

这里写图片描述

LDA过程图示：
这里写图片描述

LDA 概率图模型：

这里写图片描述

整个语料库共包含 $M$ 篇文档。其中第 $m(m \in [1,M])$ 篇文档中的第 $n (n \in N_{m})$ 个词记为 $w_{m,n}$ 。这个概率图模型可以分解成两个主要的过程：

$\vec \alpha \rightarrow \vec \theta_{m} \rightarrow z_{m,n}$ ，这个过程表示在生成第 $m$ 篇文档的时候，先从第一个坛子中抽取一个 doc-topic 骰子 $\vec \theta_{m}$ ，然后抛这个骰子生成了第 $m$ 篇文档中的第 $n$ 个词的 topic 编号 $z_{m,n}$ ;
$\vec \beta \rightarrow \vec\varphi_{k} \rightarrow w_{m,n}|k=z_{m,n}$ ，目前上帝从第二个坛子中独立抽取了 $K$ 个 top-word 骰子，这个过程表示采用如下过程生成语料中第 $m$ 篇文档的第 $n$ 个词。在上帝手中的 $K$ 个topic-word 骰子 $\vec\varphi_{k} (k \in [1,K])$ 中，挑选编号为 $k=z_{m,n}$ （第1步得到的结果）的那个骰子进行投掷，然后生成 word $w_{m,n}$ 。

LDA 模型求解

LDA模型求解的目标主要包括以下两个方面

估计模型中的隐含变量 $\vec\varphi_{1},\ldots,\vec\varphi_{K}$ 和 $\vec \theta_{1},\ldots,\vec\theta_{M}$ ；
对于新来的一篇文档 $doc_{new}$ ，计算这篇文档的topic分布 $\vec\theta_{new}$ 。

总体思路

隐含变量 $\Theta$ 和 $\Phi$ 后验概率分布难以精确求解，可以通过采样的方法来近似求解。从LDA概率图模型可以发现:

$z_{m,n}$ 服从参数为 $\vec\theta_{m}$ 的 multinomial 分布，若能获得 $z_{m,n}$ 的观测值就很容易得到 $\vec\theta_{m}$ 的后验概率分布。
若 $z_{m,n}$ 可以被观测到，假定 $z_{m,n}=k$ ，则第 $m$ 篇文档的第 $n$ 个词 $w_{m,n}$ 服从参数为 $\vec\varphi_{k}$ 的multinomial分布，就能很容易的估计 $\vec\varphi_{k}$ 的后验概率分布。

但遗憾的是 $\vec z$ 也是隐含变量，不能被直接观测到。一种可行的方法是：我们首先计算 $\vec z$ 的后验概率分布 $p(\vec z|\vec w)$ ，然后对该后验概率分布进行采样。将得到的样本作为隐含变量 $\vec z$ 的观察值，这样就可以对 $\Theta$ 和 $\Phi$ 的后验概率分布进行估计。

计算 $\vec z$ 的后验概率分布 $p(\vec z|\vec w)$

（1）这里首先介绍一个定理：
若随机变量 $\vec \theta=(\theta_{1},\ldots,\theta_{K})$ 服从参数为 $\vec\alpha = (\alpha_{1},\ldots,\alpha_{K})$ 的Dirichlet分布。随机变量 $x$ 服从参数为 $\vec \theta$ 的 multinomial 分布（共 $K$ 个类），重复进行 $N$ 次试验，得到 $\vec x$ 。如下图所示：