LDA主题模型系列（一）基本概念

最新推荐文章于 2025-02-10 01:00:00 发布

Bernard_Yang

最新推荐文章于 2025-02-10 01:00:00 发布

阅读量591

点赞数

分类专栏： NLP 文章标签：算法机器学习自然语言处理

本文链接：https://blog.csdn.net/weixin_38224810/article/details/116362397

版权

NLP 专栏收录该内容

21 篇文章

订阅专栏

本系列分为三部分：

LDA基本概念
LDA求解之Gibbs采样
LDA求解之变分推断EM算法
将参考刘建平老师的系列博客

模型概念图：

在这里插入图片描述

第一次看到这张图可能会有些懵，逐步拆解：

一左一右分别代表两个狄利克雷分布的参数
左边第一步：
根据proportions parameter $\alpha$ （分布的超参数，是一个 $K$ 维向量）生成D个代表文档主题分布的狄利克雷分布 $\theta_{d}=\operatorname{Dirichlet}(\vec{\alpha})$ D为输入的文档总数
右边第一步：
根据topic parameter $\eta$ （分布的超参数，是一个 $V$ 维向量， $V$ 代表词汇表里所有词的个数）生成K个代表主题单词分布的狄利克雷分布 $\beta_{k}=\text { Dirichlet }(\vec{\eta})$ K为设置的主题种类
左边第二步：
对于数据中任意一篇文档 $d$ 中的第 $n$ 个词，我们可以从主题分布 $\theta_{d}$ 中得到它的主题编号 $z_{d n}$ 的分布为:
$z_{d n}=\operatorname{multi}\left(\theta_{d}\right)$
multi代表多项式分布
右边第二步
而对于该主题编号，得到我们看到的词 $w_{d n}$ 的概率分布为：
$w_{d n}=\operatorname{multi}\left(\beta_{z_{d n}}\right)$
理解LDA主题模型的主要任务就是理解上面的这个模型。这个模型里，我们有 $D$ 个文档主题的Dirichlet分布，而对应的数据有 $D$ 个主题编号的多项分
布, 这样 $\left(\alpha \rightarrow \theta_{d} \rightarrow \vec{z}_{d}\right.$ )就组成了Dirichlet-multi共轭分布（后验概率可以作为下次迭代的先验），可以贝叶斯推断的方法得到基于Dirichlet分布的文档主题后验分布）。
如果在第d个文档中，第k个主题的词的个数为： $n_{d}^{(k)}$ , 则对应的多项分布的计数可以表示为
$\vec{n}_{d}=\left(n_{d}^{(1)}, n_{d}^{(2)}, \ldots n_{d}^{(K)}\right)$
利用Dirichlet-multi共轩, 得到 $\theta_{d}$ 的后验分布为:
$\text { Dirichlet }\left(\theta_{d} \mid \vec{\alpha}+\vec{n}_{d}\right)$
同样的道理, 对于主题与词的分布, 我们有 $K$ 个主题与词的Dirichlet分布, 而对应的数据有 $K$ 个主题编号的多项分布, 这样 $\left(\eta \rightarrow \beta_{k} \rightarrow \vec{w}_{(k)}\right)$ 就组成了Dirichlet-multi共轭，可以使用贝叶斯推断的方法得到基于Dirichlet分布的主题词的后验分布。
如果在第k个主题中, 第v个词的个数为： $n_{k}^{(v)}$ , 则对应的多项分布的计数可以表示为
$\vec{n}_{k}=\left(n_{k}^{(1)}, n_{k}^{(2)}, \ldots n_{k}^{(V)}\right)$
利用Dirichlet-multi共轭, 得到 $\beta_{k}$ 的后验分布为:
$\text { Dirichlet }\left(\beta_{k} \mid \vec{\eta}+\vec{n}_{k}\right)$
由于主题产生词不依赖具体某一个文档，因此文档主题分布和主题词分布是独立的。理解了上面这 $M + K$ 组Dirichlet-multi共轭，就理解了LDA的基本原理了。
现在的问题是，基于这个LDA模型如何求解我们想要的每一篇文档的主题分布和每一个主题中词的分布呢?
一般有两种方法，第一种是基于Gibbs采样算法求解，第二种是基于变分推断EM算法求解。