LDA主题模型

最新推荐文章于 2024-06-10 12:05:20 发布

==樛木==

最新推荐文章于 2024-06-10 12:05:20 发布

阅读量951

点赞数 1

分类专栏：机器学习之个人小结文章标签： LDA 共轭分布 Dirichlet分布主题模型

本文链接：https://blog.csdn.net/weixin_38493025/article/details/89014548

版权

概率图模型LDA（Latent Dirichlet Allocation）用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

1. 基础知识

1.1 LDA属于贝叶斯模型

LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块：
$后验分布 = 先验分布 + 数据（似然）$

We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of discrete data such as text corpora.
LDA is a three-level hierarchical Bayesian model, in which each item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in turn, modeled as an infinite mixture over an underlying set of topic probabilities.

1.2 LDA采用词袋模型构造成词向量

在LDA中，每篇文章是用词袋模型构造成词向量。词袋模型，顾名思义，就是将文本视为一个 “装满词的袋子” ，袋子里的词语是随便摆放的，没有顺序和语义之分。在词袋模型中，“我喜欢你”和“你喜欢我”是等价的。

与词袋模型相反的一个模型是n-gram，n-gram考虑了词汇出现的先后顺序。

1.3 共轭分布

在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)的形式一样（满足同样的分布律），那么，先验分布和后验分布被叫做共轭分布。

共轭分布的提出背景：
一方面符合人的直观，另一方面可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

比如你对好人和坏人的认知

先验分布为：100个好人和100个的坏人，即你认为好人坏人各占一半；
现在你被2个好人（数据）帮助了和1个坏人骗了，于是你得到了新的后验分布为：102个好人和101个的坏人；
现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布；
当你被1个好人（数据）帮助了和3个坏人（数据）骗了后，你又更新了你的后验分布为：103个好人和104个的坏人；
依次继续更新下去。前面一次贝叶斯推荐的后验分布，又是后一次贝叶斯推荐的先验分布。也即是说，先验分布和后验分布的形式应该是一样的。

1.3 二项分布与Beta分布共轭

1.3.1 二项分布

在n重伯努利试验（n次重复独立试验，每次试验只有2种可能结果）中，若每次试验事件A出现的概率为p，则事件A出现的次数X服从参数为(n,p)的二项分布，记为 $X\sim B(n,k)$ 。 $Binom(k|n,p)=P(X=k)=C^k_np^k(1-p)^{n-k}\quad (k=0,1,...,n)$ 二项分布的期望： $E = n p$

1.3.2 Beta分布

对于参数 $\alpha > 0, \beta > 0$ , 取值范围为[0, 1]的随机变量x的概率密度函数为： $Beta(p|\alpha,\beta) =\frac{\Upsilon(\alpha)\Upsilon(\beta)}{\Upsilon(\alpha+\beta)}p^{\alpha-1}(1-p)^{\beta-1}$ 其中， $\Upsilon$ 是Gamma函数，是阶乘在实数集上的延拓，满足 $\Upsilon(n)=(n-1)!$

Beta分布的期望： $E=\frac{\alpha}{\alpha+\beta}$

1.4 多项分布与Dirichlet分布共轭

1.4.1 多项分布

多项分布是二项分布在多元场合的推广。

在n次重复独立试验中，每次试验可能有若干个结果，记每次试验的可能结果为

最低0.47元/天解锁文章

==樛木==

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
LDA主题模型

概率图模型LDA（Latent Dirichlet Allocation）用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。1. 基础知识1.1 LDA属于贝叶斯模型LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块：后验分布=先验分布...
复制链接

扫一扫

专栏目录