lda主题模型的可视化_LDA主题模型

本文深入探讨LDA主题模型,从伯努利分布、beta分布到Dirichlet分布,阐述主题生成过程。同时,介绍了Gibbs采样方法,用于求解文档主题分布和词的分布,包括马尔可夫链的平稳状态概念,以及在LDA模型中的应用。
摘要由CSDN通过智能技术生成

(一)LDA主题模型问题

问题1:一篇文章,生成乐观主题、悲观主题的概率假设独立同分布(服从伯努利分布),生成n个主题。

设生成乐观主题的概率为θ。

1.伯努利分布Bernoulli distribution

概率密度函数

math?formula=x%20%5Csim%20Ber(%5Ctheta)%20%3D%20f(x%7C%5Ctheta%20)%3D%20%5Ctheta%5Ex%20(1-%5Ctheta)%5E%7B(1-x)%7D%2Cx%3D%5C%7B0%2C1%5C%7D

2.二项式分布Binomial Distribution:多重伯努利分布

math?formula=x%20%5Csim%20Bin(n%2C%5Ctheta)%3Df(x%7Cn%2C%5Ctheta)%3DC_%7Bn%7D%5Ex%20%5Ctheta%5Ex%20(1-%5Ctheta)%5E%7B(n-x)%7D%2C0%5Cleq%20x%5Cleq%20n

3.Gamma函数

math?formula=%5CGamma%20(x)%3D%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20t%5E%7Bx-1%7De%5E%7B-t%7Ddt

性质:

math?formula=%5CGamma%20(x%2B1)%3Dx%5CGamma%20(x)

证:

math?formula=%5CGamma%20(x%2B1)%3D%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20t%5Exe%5E%7B-t%7Ddt%0A%3D%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20t%5Ex(-e%5E%7B-t%7D)%E2%80%99dt%0A%5C%5C%3D%5Bt%5Ex(-e%5E%7B-t%7D)%5D_%7B0%7D%5E%7B%2B%5Cinfty%7D%20-%20%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20(-e%5E%7B-t%7D)(t%5Ex)%E2%80%99dt%0A%5C%5C%3D0%2B%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20e%5E%7B-t%7Dxt%5E%7Bx-1%7Ddt%0A%5C%5C%3Dx%5Cint_%7B0%7D%5E%7B%2B%5Cinfty%7D%20t%5E%7Bx-1%7De%5E%7B-t%7Ddt%0A%5C%5C%20%3Dx%5CGamma%20(x)

分部积分:

4fc03d378d59

4.beta分布

假设θ不是常量,而是服从beta分布(分布的分布)

math?formula=%5Ctheta%20%5Csim%20Beta(%5Calpha%2C%5Cbeta)%3Df(%5Ctheta%7C%5Calpha%20%2C%5Cbeta%20)%3D%5Cfrac%7B1%7D%7BB(%5Calpha%20%2C%5Cbeta%20)%7D%20%5Ctheta%5E%7B%5Calpha%20-1%7D(1-%5Ctheta)%5E%7B%5Cbeta%20-1%7D%2CB(%5Calpha%20%2C%5Cbeta%20)%3D%5Cfrac%7B%5CGamma%20(%5Calpha%20)%5CGamma%20(%5Cbeta%20)%7D%7B%5CGamma%20(%5Calpha%20%2B%5Cbeta%20)%7D%2C%5Ctheta%5Cin%20%5B0%2C1%5D

举例:θ取值0.3时,beta函数可计算出它的概率,即分布的分布。

4fc03d378d59

5.二项式分布与beta分布的关系

θ服从beta分布(先验分布),然后再基于伯努利分布采样到某个主题xi,重复n次采样,最后计算后验分布f(θ;x)。结合贝叶斯理论:

math?formula=%5Cbegin%7Balign*%7D%26%20f(%CE%B8%7CX)%5C%5C%20%26%3D%5Cfrac%7Bf(X%7C%5Ctheta%20)f(%5Ctheta%20)%7D%7Bf(X)%7D%5C%5C%20%26%5Cpropto%20f(X%7C%5Ctheta%20)f(%5Ctheta%20)%20%5C%5C%20%26%3D%20C_%7Bn%7D%5Ex%20%5Ctheta%20%5Ex(1-%5Ctheta)%5E%7Bn-x%7D%5Ccdot%20%5Cfrac%7B%5CGamma%20(%5Calpha%2B%5Cbeta)%7D%7B%5CGamma%20(%5Calpha)%5CGamma%20(%5Cbeta)%7D%20%5Ctheta%5E%7B%5Calpha-1%7D(1-%5Ctheta)%5E%7B%5Cbeta-1%7D%5C%5C%26%3DC_%7Bn%7D%5Ex%20%5Cfrac%7B%5CGamma%20(%5Calpha%2B%5Cbeta)%7D%7B%5CGamma%20(%5Calpha)%5CGamma%20(%5Cbeta)%7D%5Ctheta%5E%7Bx%2B%5Calpha-1%7D(1-%5Ctheta)%5E%7Bn-x%2B%5Cbeta-1%7D%5C%5C%5C%20%26%20%5Cpropto%20%5Ctheta%5E%7Bx%2B%5Calpha-1%7D(1-%5Ctheta)%5E%7Bn-x%2B%5Cbeta-1%7D%5C%5C%20%26%20%5Cpropto%20%5Cfrac%7B%5CGamma%20(n%2B%5Calpha%2B%5Cbeta)%7D%7B%5CGamma%20(x%2B%5Calpha)%5CGamma%20(n-x%2B%5Cbeta)%7D%5Ctheta%5E%7Bx%2B%5Calpha-1%7D(1-%5Ctheta)%5E%7Bn-x%2B%5Cbeta-1%7D%5C%5C%20%26%20%3DBeta(x%2B%5Calpha%2Cn-x%2B%5Cbeta)%5Cend%7Balign*%7D

得知:后验分布f(θ;x)和先验分布都属于相同形式的分布。

在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布。

共轭的好处:计算多批新样本数据下的后验分布后,使之直接成为“先验”,不需要重新整体计算,只需要考虑新样本数据。

其它应用:点击率的贝叶斯平滑

问题2:一篇文章,生成K个主题的概率假设独立同分布(服从伯努利分布),生成n个主题。

设生成主题ki的概率为pi,P为生成{xi个主题ki;i=1,2,..,k}的联合概率。

6.多项式分布

math?formula=x%20%5Csim%20Multi(n%2C%5Ctheta_1%2C%5Ctheta_2%2C...%2C%5Ctheta_k)%3DP(x_1%2Cx_2%2C..%2Cx_k%7Cn%2C%5Ctheta_1%2C%5Ctheta_2%2C...%2C%5Ctheta_k)%3D%5Cfrac%7Bn!%7D%7Bx_1!x_2!...x_k!%7D%20%20%5Ctheta_1%5E%7Bx_1%7D%20%5Ctheta_2%5E%7Bx_2%7D...%5Ctheta_k%5E%7Bx_k%7D%2Cn%3D%5Csum%5Cnolimits_%7B1%7D%5Ek%20x_k

7.Dirichlet分布

math?formula=%5Cvec%7B%5Ctheta%7D%20%5Csim%20Dir(%5Calpha_1%2C%5Calpha_2%2C...%2C%5Calpha_K)%20%3D%20f(%5Ctheta_1%2C%5Ctheta_2%2C...%2C%5Ctheta_n%7C%5Calpha_1%2C%5Calpha_2%2C...%2C%5Calpha_K)%3D%5Cfrac%7B1%7D%7BB(%5Cvec%20%5Calpha)%7D%5Cprod_%7Bi%3D1%7D%5EK%20%5Ctheta_i%5E%7B%5Calpha_i-1%7D

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值