lda主题模型的可视化_文本主题模型之LDA(一) LDA基础

最新推荐文章于 2024-05-14 15:51:50 发布

weixin_39781945

最新推荐文章于 2024-05-14 15:51:50 发布

阅读量940

点赞数

文章标签： lda主题模型的可视化

本文链接：https://blog.csdn.net/weixin_39781945/article/details/111518892

版权

本文介绍了LDA（Latent Dirichlet Allocation）主题模型的基础，包括其贝叶斯模型、二项分布与Beta分布的关系，以及Dirichlet分布与多项分布的共轭特性。LDA假设文档主题分布和主题中词的分布都服从Dirichlet分布，并通过Dirichlet-Multi共轭关系进行后验分布推断。文章末尾提到了LDA模型的求解方法，如Gibbs采样和EM算法。

摘要由CSDN通过智能技术生成

文本主题模型之LDA(一) LDA基础

在前面我们讲到了基于矩阵分解的LSI和NMF主题模型，这里我们开始讨论被广泛使用的主题模型：隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。注意机器学习还有一个LDA，即线性判别分析，主要是用于降维和分类的，如果大家需要了解这个LDA的信息，参看之前写的线性判别分析LDA原理总结。文本关注于隐含狄利克雷分布对应的LDA。

1. LDA贝叶斯模型

LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据(似然)”和"后验分布"三块。在朴素贝叶斯算法原理小结中我们也已经讲到了这套贝叶斯理论。在贝叶斯学派这里：

先验分布 + 数据(似然)= 后验分布

这点其实很好理解，因为这符合我们人的思维方式，比如你对好人和坏人的认知，先验分布为：100个好人和100个的坏人，即你认为好人坏人各占一半，现在你被2个好人(数据)帮助了和1个坏人骗了，于是你得到了新的后验分布为：102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布，当你被1个好人(数据)帮助了和3个坏人(数据)骗了后，你又更新了你的后验分布为：103个好人和104个的坏人。依次继续更新下去。

2. 二项分布与Beta分布

对于上一节的贝叶斯模型和认知过程，假如用数学和概率的方式该如何表达呢？

对于我们的数据(似然)，这个好办，用一个二项分布就可以搞定，即对于二项分布：$$Binom(k|n,p) = {n \choose k}p^k(1-p)^{n-k}$$

其中p我们可以理解为好人的概率，k为好人的个数，n为好人坏人的总数。

虽然数据(似然)很好理解，但是对于先验分布，我们就要费一番脑筋了，为什么呢？因为我们希望这个先验分布和数据(似然)对应的二项分布集合后，得到的后验分布在后面还可以作为先验分布！就像上面例子里的“102个好人和101个的坏人”，它是前面一次贝叶斯推荐的后验分布，又是后一次贝叶斯推荐的先验分布。也即是说，我们希望先验分布和后验分布的形式应该是一样的，这样的分布我们一般叫共轭分布。在我们的例子里，我们希望找到和二项分布共轭的分布。

和二项分布共轭的分布其实就是Beta分布。Beta分布的表达式为：$$Beta(p|\alpha,\beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gam

最低0.47元/天解锁文章

weixin_39781945

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫