lda主题模型困惑度_主题模型(一):LDA 基本原理

本文详细介绍了LDA主题模型的数学基础,包括二项分布、多项分布、Beta和Dirichlet分布,以及它们的共轭关系。此外,还探讨了Markov Chain Monte Carlo和Gibbs Sampling在主题模型中的应用,阐述了马氏链的平稳分布和细致平稳条件。最后,解释了词袋模型和LDA如何生成主题。
摘要由CSDN通过智能技术生成

一、 数学基础

*** 二项分布 ***

二项分布为N 重伯努利分布,则事件成功 k 次的概率可表示为:

*** 多项分布 ***

多项分布是二项分布在高维度上的推广:

*** Beta分布 ***

其中,

,满足

为Gamma函数,积分表示为:

*** Dirichlet分布 ***

Dirichlet分布是Beta分布在高维度上的推广:

其中,

为Gamma函数。

取相同值时,称为对称Dirichlet分布。此时,只有一个参数
,称为Concentration Parameter (聚集参数)。
参数
越大主题越鲜明,越小主题越分散。

*** 共轭先验分布 ***

根据贝叶斯定理,可以得到如下公式。由于

仅与
有关,并且仅起到归一化作用,因此最优化参数时可以不考虑。

表示后验分布,
表示似然函数,
表示先验分布。

当先验分布

和后验分布
满足同样的分布律时,先验分布
和后验分布
称为
共轭分布。同时,先验分布
叫做似然函数
共轭先验分布

*** Beta-Binomial 共轭 ***

Beta分布为:

二项分布为:

如果二项分布 * Beta分布得到的后验分布仍然为Beta分布,则说明Beta分布和二项分布满足共轭关系,Beta分布为二项分布的共轭先验分布。证明如下:

根据上述推导,可以看出计算得到的后验分布

服从Beta分布。

*** Dirichlet-Multinomial 共轭 ***

Dirichlet分布为:

多项分布为:

如果多项分布 * Dirichlet分布得到的后验分布仍然为Dirichlet分布,则说明Dirichlet分布和多项分布满足共轭关系,Dirichlet分布为多项分布的共轭先验分布。证明如下:


其中,

根据上述推导,可以看出计算得到的后验分布

服从Dirichlet分布。

*** Beta / Dirichlet 分布的一个重要性质 ***

如果

,则Beta分布的期望
:

同理,如果

,则Dirichlet分布的期望
:

Beta / Dirichlet 分布的期望值可以用于估计随机变量的均值。


二、Markov Chain Monte Carlo 与 Gibbs Sampling

在很多具体的任务中,对于事先给定的概率分布

,通常并不是为了求解概率分布
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值