文本主题模型LDA(一)之基础知识

从本节开始,打算总结一下自己对LDA模型的理解过程,由于LDA模型涉及到的数学知识众多,所以在本小节会先介绍一些相关的数学知识,做好铺垫。

贝叶斯模型参数估计过程

LDA是基于贝叶斯模型的,涉及到贝叶斯模型自然离不开“先验分布”,“数据(似然)”和"后验分布"三块。贝叶斯模型参数估计过程一般是这样: 先 验 分 布 + 数 据 ( 似 然 ) = 后 验 分 布 先验分布 + 数据(似然)= 后验分布 +=这点其实很好理解,因为这符合我们人的思维方式,举个例子你就懂了,比如你对好人和坏人的认知,先验分布为:100个好人和100个的坏人,即你认为好人坏人各占一半,现在你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布,当你被1个好人(数据)帮助了和3个坏人(数据)骗了后,你又更新了你的后验分布为:103个好人和104个的坏人。依次继续更新下去。

二项分布与Beta分布

对于上一节的贝叶斯模型和认知过程,假如用数学和概率的方式该如何表达呢?对于我们的数据(似然),这个好办,用一个二项分布就可以搞定,即对于二项分布: B i n o m ( k ∣ n , p ) = ( n k ) p k ( 1 − p ) n − k Binom(k|n,p) = {n \choose k}p^k(1-p)^{n-k} Binom(kn,p)=(kn)pk(1p)nk其中p我们可以理解为好人的概率,k为好人的个数,n为好人坏人的总数。虽然数据(似然)很好理解,但是对于先验分布,我们就要费一番脑筋了,为什么呢?因为我们希望这个先验分布和数据(似然)对应的二项分布集合后,得到的后验分布在后面还可以作为先验分布!就像上面例子里的“102个好人和101个的坏人”,它是前面一次贝叶斯推荐的后验分布,又是后一次贝叶斯推荐的先验分布。也即是说,我们希望先验分布和后验分布的形式应该是一样的,这样的分布我们一般叫共轭分布。在我们的例子里,我们希望找到和二项分布共轭的分布。
和二项分布共轭的分布其实就是Beta分布。Beta分布的表达式为: B e t a ( p ∣ α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) p α − 1 ( 1 − p ) β − 1 Beta(p|\alpha,\beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{{\beta-1}} Beta(pα,β)=Γ(α)Γ(β)Γ(α+β)pα1(1p)β1其中,其中 Γ \Gamma Γ是Gamma函数,满足 Γ ( x ) = ( x − 1 ) ! \Gamma(x) = (x-1)! Γ(x)=(x1)!.
仔细观察Beta分布和二项分布,可以发现两者的密度函数很相似,区别仅仅在前面的归一化的阶乘项。那么它如何做到先验分布和后验分布的形式一样呢?后验分布 P ( p ∣ n , k , α , β ) P(p|n,k,\alpha,\beta) P(pn,k,α,β)推导如下: P ( p ∣ n , k , α , β ) ∝ P ( k ∣ n , p ) P ( p ∣ α , β ) = P ( k ∣ n , p ) P ( p ∣ α , β ) = B i n o m ( k ∣ n , p ) B e t a ( p ∣ α , β ) = ( n k ) p k ( 1 − p ) n − k × Γ ( α + β ) Γ ( α ) Γ ( β ) p α − 1 ( 1 − p ) β − 1 ∝ p k + α − 1 ( 1 − p ) n − k + β − 1   \begin{aligned} P(p|n,k,\alpha,\beta) & \propto P(k|n,p)P(p|\alpha,\beta) \\ & = P(k|n,p)P(p|\alpha,\beta) \\& = Binom(k|n,p) Beta(p|\alpha,\beta) \\ &= {n \choose k}p^k(1-p)^{n-k} \times \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{{\beta-1}} \\& \propto p^{k+\alpha-1}(1-p)^{n-k + \beta -1}  \end{aligned} P(pn,k,α,β)P(kn,p)P(pα,β)=P(kn,p)P(pα,β)=Binom(kn,p)Beta(pα,β)=(kn)pk(1p)nk×Γ(α)Γ(β)Γ(α+β)pα1(1p)β1pk+α1(1p)nk+β1 将上面最后的式子归一化以后,得到我们的后验概率为: P ( p ∣ n , k , α , β ) = Γ ( α + β + n ) Γ ( α + k ) Γ ( β + n − k ) p k + α − 1 ( 1 − p ) n − k + β − 1 P(p|n,k,\alpha,\beta) = \frac{\Gamma(\alpha + \beta + n)}{\Gamma(\alpha + k)\Gamma(\beta + n - k)}p^{k+\alpha-1}(1-p)^{n-k + \beta -1} P(pn,k,α,β)=Γ(α+k)Γ(β+nk)Γ(α+β+n)pk+α1(1p)nk+β1可见我们的后验分布的确是Beta分布,而且我们发现: B e t a ( p ∣ α , β ) + B i n o m C o u n t ( k , n − k ) = B e t a ( p ∣ α + k , β + n − k ) Beta(p|\alpha,\beta) + BinomCount(k,n-k) = Beta(p|\alpha + k,\beta +n-k) Beta(pα,β)+BinomCount(k,nk)=Beta(pα+k,β+nk)这个式子完全符合我们在上一节好人坏人例子里的情况,我们的认知会把数据里的好人坏人数分别加到我们的先验分布上,得到后验分布。 
上面这个式子实际上描述的就是Beta-Binomial共轭,此处共轭的意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

我们再来看看Beta分布 B e t a ( p ∣ α , β ) Beta(p|\alpha,\beta) Beta(pα,β)的期望: E ( B e t a ( p ∣ α , β ) ) = ∫ 0 1 t B e t a ( p ∣ α , β ) d t = ∫ 0 1 t Γ ( α + β ) Γ ( α ) Γ ( β ) t α − 1 ( 1 − t ) β − 1 d t = Γ ( α + β ) Γ ( α ) Γ ( β ) ∫ 0 1 t α ( 1 − t ) β − 1 d t \begin{aligned} E(Beta(p|\alpha,\beta)) & = \int_{0}^{1}tBeta(p|\alpha,\beta)dt \\& = \int_{0}^{1}t \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}t^{\alpha-1}(1-t)^{{\beta-1}}dt \\& = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}\int_{0}^{1}t^{\alpha}(1-t)^{{\beta-1}}dt \end{aligned} E(Beta(pα,β))=01tBeta(pα,β)dt=01tΓ(α)Γ(β)Γ(α+β)tα1(1t)β1dt=Γ(α)Γ(β)Γ(α+β)01tα(1t)β1dt上式右边的积分对应到概率分布 B e t a ( p ∣ α + 1 , β ) Beta(p|\alpha+1,\beta) Beta(pα+1,β),对于这个分布,其在(0,1)上的积分为1,于是我们有: ∫ 0 1 Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) p α ( 1 − p ) β − 1 d p = 1 \int_{0}^{1}\frac{\Gamma(\alpha + \beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}p^{\alpha}(1-p)^{{\beta-1}} dp=1 01Γ(α+1)Γ(β)Γ(α+β+1)pα(1p)β1dp=1将上式代入到 E ( B e t a ( p ∣ α , β ) ) E(Beta(p|\alpha,\beta)) E(Beta(pα,β))的计算式中,可得: E ( B e t a ( p ∣ α , β ) ) = Γ ( α + β ) Γ ( α ) Γ ( β ) Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = α α + β E(Beta(p|\alpha,\beta)) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}\frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha + \beta+1)} = \frac{\alpha}{\alpha + \beta} E(Beta(pα,β))=Γ(α)Γ(β)Γ(α+β)Γ(α+β+1)Γ(α+1)Γ(β)=α+βα这说明,对于Beta分布的随机变量,其均值可以用 α α + β \frac{\alpha}{\alpha+\beta} α+βα来估计,这个结论很重要,后面的LDA的数学推导中需要用到这个结论。

多项分布与Dirichlet 分布

现在我们回到上面好人坏人的问题,假如我们发现有第三类人,不好不坏的人,这时候我们如何用贝叶斯来表达这个模型分布呢?之前我们是二维分布,现在是三维分布。由于二维我们使用了Beta分布和二项分布来表达这个模型,则在三维时,以此类推,我们可以用三维的Beta分布来表达先验后验分布,三项的多项分布来表达数据(似然)。
三项的多项分布好表达,我们假设数据中的第一类有 m 1 m_1 m1个好人,第二类有 m 2 m_2 m2个坏人,第三类为 m 3 = n − m 1 − m 2 m_3=n−m_1−m_2 m3=nm1m2个不好不坏的人,对应的概率分别为 p 1 , p 2 , p 3 = 1 − p 1 − p 2 p_1,p_2,p_3=1−p_1−p_2 p1,p2,p3=1p1p2,则对应的多项分布为: m u l t i ( m 1 , m 2 , m 3 ∣ n , p 1 , p 2 , p 3 ) = n ! m 1 ! m 2 ! m 3 ! p 1 m 1 p 2 m 2 p 3 m 3 multi(m_1,m_2,m_3|n,p_1,p_2,p_3) = \frac{n!}{m_1! m_2!m_3!}p_1^{m_1}p_2^{m_2}p_3^{m_3} multi(m1,m2,m3n,p1,p2,p3)=m1!m2!m3!n!p1m1p2m2p3m3那三维的Beta分布呢?超过二维的Beta分布我们一般称之为狄利克雷(以下称为Dirichlet )分布。也可以说Beta分布是Dirichlet 分布在二维时的特殊形式。从二维的Beta分布表达式,我们很容易写出三维的Dirichlet分布如下: D i r i c h l e t ( p 1 , p 2 , p 3 ∣ α 1 , α 2 , α 3 ) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) p 1 α 1 − 1 ( p 2 ) α 2 − 1 ( p 3 ) α 3 − 1 Dirichlet(p_1,p_2,p_3|\alpha_1,\alpha_2, \alpha_3) = \frac{\Gamma(\alpha_1+ \alpha_2 + \alpha_3)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_3)}p_1^{\alpha_1-1}(p_2)^{\alpha_2-1}(p_3)^{\alpha_3-1} Dirichlet(p1,p2,p3α1,α2,α3)=Γ(α1)Γ(α2)Γ(α3)Γ(α1+α2+α3)p1α11(p2)α21(p3)α31同样的方法,我们可以写出4维,5维,。。。以及更高维的Dirichlet 分布的概率密度函数。为了简化表达式,我们用向量来表示概率和计数,这样多项分布可以表示为: D i r i c h l e t ( p ⃗ ∣ α ⃗ ) Dirichlet(\vec p| \vec \alpha) Dirichlet(p α ),而多项分布可以表示为: m u l t i ( m ⃗ ∣ n , p ⃗ ) multi(\vec m| n, \vec p) multi(m n,p )
一般意义上的K维Dirichlet 分布表达式为: D i r i c h l e t ( p ⃗ ∣ α ⃗ ) = Γ ( ∑ k = 1 K α k ) ∏ k = 1 K Γ ( α k ) ∏ k = 1 K p k α k − 1 Dirichlet(\vec p| \vec \alpha) = \frac{\Gamma(\sum\limits_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^Kp_k^{\alpha_k-1} Dirichlet(p α )=k=1KΓ(αk)Γ(k=1Kαk)k=1Kpkαk1而多项分布和Dirichlet 分布也满足共轭关系,这样我们可以得到和上一节类似的结论: D i r i c h l e t ( p ⃗ ∣ α ⃗ ) + M u l t i C o u n t ( m ⃗ ) = D i r i c h l e t ( p ⃗ ∣ α ⃗ + m ⃗ ) Dirichlet(\vec p|\vec \alpha) + MultiCount(\vec m) = Dirichlet(\vec p|\vec \alpha + \vec m) Dirichlet(p α )+MultiCount(m )=Dirichlet(p α +m )对于Dirichlet 分布的期望,也有和Beta分布类似的性质: E ( D i r i c h l e t ( p ⃗ ∣ α ⃗ ) ) = ( α 1 ∑ k = 1 K α k , α 2 ∑ k = 1 K α k , . . . , α K ∑ k = 1 K α k ) E(Dirichlet(\vec p|\vec \alpha)) = (\frac{\alpha_1}{\sum\limits_{k=1}^K\alpha_k}, \frac{\alpha_2}{\sum\limits_{k=1}^K\alpha_k},...,\frac{\alpha_K}{\sum\limits_{k=1}^K\alpha_k}) E(Dirichlet(p α ))=(k=1Kαkα1,k=1Kαkα2,...,k=1KαkαK)这个结论也很重要,后面的LDA的数学推导中需要用到这个结论。

LDA主题模型

好,铺垫已经做的差不多了,现在正式开始讲解LDA模型。
问题场景是这样的:我们有m篇文档,对应第d个文档中有 n d n_d nd个词,即输入为如下图:
在这里插入图片描述
LDA的目标是找到每一篇文档的主题分布和每一个主题中词的分布。在LDA模型中,我们需要先假定一个主题数目K,这样所有的分布就都基于K个主题展开。在LDA中,我们需要求解的参数就是文档-主题分布和主题-词分布,现在我们先不思考如何去求解这两个分布,而是去看看LDA模型是如何生成每一篇文档的。
在这里插入图片描述
上图中,第一个装着骰子的壶其实就表示文档-主题分布的狄利克雷先验分布,第二个装着骰子的壶表示主题-词分布的狄利克雷先验分布,文档生成的具体过程如下:
在这里插入图片描述
如果用概率图来表示这个过程,就如下图所示:在这里插入图片描述
LDA假设文档主题的先验分布是Dirichlet分布,即对于任一文档d, 其主题分布 θ d \theta_d θd为: θ d = D i r i c h l e t ( α ⃗ ) \theta_d = Dirichlet(\vec \alpha) θd=Dirichlet(α )其中, α \alpha α为分布的超参数,是一个K维向量.。
LDA假设主题中词的先验分布是Dirichlet分布,即对于任一主题k, 其词分布 φ k \varphi_k φk为: φ k = D i r i c h l e t ( β ⃗ ) \varphi_k= Dirichlet(\vec \beta) φk=Dirichlet(β )其中, β \beta β为分布的超参数,是一个V维向量。V代表词汇表里所有词的个数。
对于数据中任一一篇文档d中的第n个词,我们可以从主题分布 θ d \theta_d θd中得到它的主题编号 z d n z_{dn} zdn z d n = m u l t i ( θ d ) z_{dn} = multi(\theta_d) zdn=multi(θd)接着我们便可以得到该主题下各个词的概率分布: w d n = m u l t i ( φ z d n ) w_{dn} = multi(\varphi_{z_{dn}}) wdn=multi(φzdn)理解LDA主题模型的主要任务就是理解上面的这个模型。这个模型里,我们有M个文档主题的Dirichlet分布,而对应的数据有M个主题编号的多项分布,这样 α → φ d → z ⃗ d \alpha \to \varphi_d \to \vec z_{d} αφdz d就组成了Dirichlet-multi共轭,可以使用前面提到的贝叶斯推断的方法得到基于Dirichlet分布的文档主题后验分布。

如果在第d个文档中,第k个主题的词的个数为: n d ( k ) n_d^{(k)} nd(k), 则对应的多项分布的计数可以表示为: n ⃗ d = ( n d ( 1 ) , n d ( 2 ) , . . . n d ( K ) ) \vec n_d = (n_d^{(1)}, n_d^{(2)},...n_d^{(K)}) n d=(nd(1),nd(2),...nd(K))此时的 n ⃗ d \vec n_d n d就相当于文档-主题数据似然,利用Dirichlet-multi共轭,得到 θ d \theta_d θd的后验分布为: D i r i c h l e t ( θ d ∣ α ⃗ + n ⃗ d ) Dirichlet(\theta_d | \vec \alpha + \vec n_d) Dirichlet(θdα +n d)同样的道理,对于主题与词的分布,我们有K个主题与词的Dirichlet分布,而对应的数据有K个主题编号的多项分布,这样 β → φ k → w ⃗ ( k ) \beta \to \varphi_k \to \vec w_{(k)} βφkw (k)就组成了Dirichlet-multi共轭,可以使用前面提到的贝叶斯推断的方法得到基于Dirichlet分布的主题词的后验分布。
如果在第k个主题中,第v个词的个数为: n k v n_k^v nkv 则对应的多项分布的计数可以表示为: n ⃗ k = ( n k ( 1 ) , n k ( 2 ) , . . . n k ( V ) ) \vec n_k = (n_k^{(1)}, n_k^{(2)},...n_k^{(V)}) n k=(nk(1),nk(2),...nk(V))此时的 n ⃗ k \vec n_k n k就相当于主题-词的数据似然,利用Dirichlet-multi共轭,得到 φ k \varphi_k φk的后验分布为: D i r i c h l e t ( φ k ∣ β ⃗ + n ⃗ k ) Dirichlet(\varphi_k | \vec \beta+ \vec n_k) Dirichlet(φkβ +n k)由于主题产生词不依赖具体某一个文档,因此文档主题分布和主题词分布是独立的。理解了上面这M+K组Dirichlet-multi共轭,就理解了LDA的基本原理了。
现在的问题是,基于这个LDA模型如何求解我们想要的每一篇文档的主题分布和每一个主题中词的分布呢?我们将在下一节中详细讲解基于Gibbs采样的LDA求解方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LDA模型的理解对很多人是一种挑战,尤其是参数估计部分。本文档详细给出了TOTLDALDA两个主题概率模型的参数估计需要用到的后验概率的推导过程,并采用了两种方法,对主题概率模型研究人员具有很好的启发意义!Gibbs Sampling Derivation for LDA and ToT, Han Xiao, Ping luo Gibbs sampling:为了对x进行佔计,一般我们要从 P(X)≡P 中进行抽样。如果P(X)不易求得,我们可以通过对所有的P(x|X_)进行抽样来近似 其步骤如下 1.随机初始化X0)=(x10,x20)…,x 2.重复进行T轮抽样, 在每轮抽样中,对于=1…N,每个xP从P(xPx9,…2x1,x(+1…,x)抽样 3.当 Burn-in之后,可以通过几轮抽样计算P(X) 为了不失一般性,下面对ToT的 Gibbs sampling过稈进行推导 1.在TOT的 Gibbs sampling中,我们要求 P( zdilw,t,zdt,a,β,V) 然后才能跟据它,对生成wd,td的zd进行抽样估计。因为zd是隐减变量,一旦抽样估计完成,对丁每个wa它生成 自的 topIC就变成已知;对于每个 document,它包含的 topiCS也变成已知。那么对于 document-topics分布0d和 topic-words上的分布中2也就可以非常容易的破拟合出来。 Step1:根据 )=P(z) 和贝叶斯公式可以得到 P(zawt,z_dt,ax,β,V) P(W,tz,c,β,甲)P(w,t,zcB, P(wtzd,a,阝,乎P(w, t, z-dil,β,v 根据 Graphical Model,wda,ta都是由za生成的,如果不考虑zd则无法考虑wd,td。从而得到 P(zdw,t,z_di,x,βv)∝ P(Z,,t]a,B,p) t β,V) 2.由上式可知,在 Gibbs sampling中关键是要求出如下的联合概率 (w,t, zla, B, p) step1:根据 Graphical Model,咯去Φ,6,可以将联合概率拆开 P(w,t,zaB,)=P(w|z,β)P(t平,z)P(za) step2:引入Φ,θ,对Φ,回进行积分。再根据 Graphical Model,可以写出 P(w,t, zla,B,)=P(t!, 2) P(wlz, p)P(pIB)da P(zle)P(ela)do step3:对于整个 corpus,拆开所有黑体和大写,条件概率中的条件,z可以写做ψ;ZΦ写做中 N N plai P(中2|β)d中2 JITE P(zdi led)prelude Z=1 Step4:由于从第zd个 topic中抽去wd是满足多项式分布中2,的,因此 N d i 同理由于从第d个 document中抽取zu也是满足多项分布θa的,因此 P(zdi led) d d=1i=1 d=1z=1 将两式带入(2.3)中可以得到, Gibbs Sampling Derivation for LDa and ToT, Han Xiao, Ping Luo P(中2|β)d ed P(eala)de 7 d=1i=1 d=1z=1 step5:根据 dirichlet的后验分布,可以将P(中2|B)和P(Oda)开,得到 N 心!G T d=1i=1 r(β) 3-1)d中 11(ax)2=5 de step6:由于mCx18)与中无关,C叫2与无关,可以将它们提出,得: N P(tai lvz 2=1pv T r(a 1e()(心!(门 -1 d6, step7:由于不同的 topic的 topic-words分布是独立的(比如φ1与中2是独立的,可以通过d- separation判定),因此 连乘的积分可以写作积分的连乘;同理,不同 document的 document-topics分布也是独立的(01与02是独立的) 因此可以上式可以写为: r:)(21门(÷*a)(U nd, tarded 11(a dz d=11=1 step8:根据欧拉积分 I= r(1a) 对(27)式中后面两项使用欧拉积分可得 D C P(wt,za,β,)= r(nzy+阝) T(ndz +az) Ilv= r(Bv) d=1i=1 r(a)/ir(zv-1nz +Bv)d-r(zI-1ndz+a2) 3.* full conditional probability Step1:将(28)中的式子代入,可以得到 P(zW,ta,B平 t-di|a,阝, D -v=1 r(n2+β)mDT=r(naz+ 2n八(正=1r(民) r(a2) r(Ev=1n,y +Bv d-r(zi=1(nd z +ar)) 四1lepe(tdb)(( r(z=1a2) Iv-r(nz,y+By)rd Ilz-1r(ndz+ Ilv-1r(Bv)(2-1 T, r(a2/ v=tzv +β Σ=(na2+a2) -di step2:此时,要留意所有角标与di有关的nc2和n2x,由于不考虑zd,因此watd不用考虑(因为它们没有被牛成), 也就是说在考虑 topic Z和 word的所有共现次数时(即n2xy),我们忽略了这一次z与w的共现,这仅仅会让nda减 1,而对于其他的n2w并无影响:同样的,这也会使ndx减1,而并不会使其他的n发生改变。注意:MTD的 大小并没有发生改变 将上式拆成3部分来看,可以得到如下二式 P(taizu) Gibbs Sampling Derivation for LDA and ToT, Han Xiao, Ping luo v=1 Z=1 Ilv-ir(Bv)/\21r(az ) +0 3) nd, z tuz r(n Step3:关键是对(32.3式的化简),首先看其前一部分的分母 n,, (n2awa+阝wa-1)×m=1IV=r(n2x+B3) rCw=1nx+)T(C=(n+)-1)xr(=(2+B Step4:看前一部分的分子 (n+β) rInza wa d e,V 1r(x-(2+,)T((l2a+.)x(2=1(2+B) step5:(3.4)/(33),借助r(x+1)=xr(x)可以得到 (n2+阝 r(=1(n2+ +阝 ∑=1(n+B)-1 (xy=1(n2+阝 step6:看后一部分的分母 ∏z=1T(n ndg+ d diz )×TB=1I=1r(nd2+a2 Z z(叫2+c)=rCxm(ndna+a)-1)xm出,r(xm=(a+a2) step7:看后一部分的分子 Isr(ndz+ r(nd di, zdi )×[=1m=1r(naz+a2)d (2z_(nd. +a2))r(2z1nduix+ai)xIlad r(2T-(ndz +a2)) step8:(3.7)/(3.6},借助『(x+1)=xr(x)可得 ILs, r(ndz d=Ir(st (ndz+ n dinz di r(ndz ta 1d 1 n Step9:将(3.8)(35)(3.2)代入到(3.1)可得 P(zw,t,z-di,a阝,平)∝ P(z-di, W-di t-di a,B, y)P(tail zd )xyyatBwdi--1 P(Z,w, ta,B, p) =1(na+)-1∑=1(nx+)-1 (1-td) di“dt-1 nz,a, wui nd,ji, z i (nax+阝)-1 其中B(β) r(axr(β) 我们可以利用上式对每个zd进行抽样,当迭代次数足够大时,抽样结果趋丁稳定 r(a+β) LDA中 Gibbs Sampling中P(adw,zd,.,B)+a-1+2(adz+ nu, ldi 对比 LDA Gibbs Sampling发现,模型中加入时间信息后,对zd抽样时依据的概率分布做∫一些改变,相当于在LDA 的基础上增加了一个因子。 Gibbs Sampling Derivation for LDA and TOT, Han Xiao, Ping lut 当对zd的抽样完成后,我们可以方便的根据n2x和naz对中2与04进行计 例如,对于第z个 topIC的 topic-words分布,可以用 中2 n2+阝-1 (n2x+β) 求得中2=( D. Quick Derivation 对于TOT的 Gibbs Sampling,我们要求的是 P(zd1Wtz-dt,,阝平) 根据 Bayes rule,上式可以写作: P(zdi lw, t, z-di, a,B, P(w,tz,ax,阝,) P(wt,Z,a,阝,Y 根据 Graphical Model,wa,t都是山z生成的,如果不考虑za则无法考虑wd,td,因此: P(w,tZ,,β P(wtz|o,阝乎 P(edi lw, t, z-di, a, B,)ople-diw-di, t-di,a,B, y)P(z_di w aul-di/, B,Y) 根据 d-sperate可以判定对于不同的:zd,watd与zd,wd,td在条件a,β甲下是独立的。因此,上式右边可以拆为 各项连乘的形式,分子分母消去公共项,只剩P(zd,wd,tax,B,V),即 P(d|W,tzdi,,β,甲)∝P(ai,wd,tail,阝,甲) 又由于z,wd,td与z,w,td实际上在条件,,a,平下也是独立的,同理可得 P(zd|w,tzd中,,c,β,)∝P(z 中,e,x,β,甲) 根据 Graphical Mode|P(dwa,td|,e,a,,甲)可以写作 P(z 仲中6,,阝,)=P( wailed,中β)P y)P(zdi le, a) 山于抽wd和抽zd都满足多项式分布,批tG满足beta分布,于是有 P(wailed,,β)=、y ∑v=1(n2x+凤 n P(zdi le, a n di P(tai lzdi, p) (1-td B(中-1,中-1) 于是得到P(dw,txd,B甲)a(1t)帅t甲- B(山d-1,a-1)x +radix nd di di 对于LDA,推导过程同上,只是我们无需考虑td,于是P( dili, zdi a,B.甲)=2dym+B=x n Zdi.+Pv E。 References [1D Blei, A Ng, and m. Jordan Latent dirichlet allocation Journal of machine Learning research, 3: 993-1022, 2003 [2 Xuerui Wang, Andrew McCallum. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends. KDD06 August 20-23, 2006, Philadelphia, Pennsylvania, USA
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值