LDA-math-认识Beta/Dirichlet分布(2)

转载 2013年12月01日 20:10:21

http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%832

2. LDA-math-认识Beta/Dirichlet分布(2)
2.2 Beta-Binomial 共轭

魔鬼的第二个题目,数学上形式化一下,就是

  1. X1,X2,,XniidUniform(0,1),对应的顺序统计量是 X(1),X(2),X(n), 我们要猜测 p=X(k)
  2. Y1,Y2,,YmiidUniform(0,1)Yi中有m1个比p小,m2个比p大;
  3. 问 P(p|Y1,Y2,,Ym) 的分布是什么。

由于p=X(k)在 X1,X2,,Xn中是第k大的,利用Yi的信息,我们容易推理得到 p=X(k) 在X1,X2,,Xn,Y1,Y2,,YmiidUniform(0,1) 这(m+n)个独立随机变量中是第 k+m1大的,于是按照上一个小节的推理,此时p=X(k) 的概率密度函数是 Beta(p|k+m1,nk+1+m2)。按照贝叶斯推理的逻辑,我们把以上过程整理如下:

  1. p=X(k)是我们要猜测的参数,我们推导出 p 的分布为 f(p)=Beta(p|k,nk+1),称为 p 的先验分布;
  2. 数据Yi中有m1个比p小,m2个比p大,Yi相当于是做了m次贝努利实验,所以m1 服从二项分布 B(m,p)
  3. 在给定了来自数据提供的(m1,m2)的知识后,p 的后验分布变为 f(p|m1,m2)=Beta(p|k+m1,nk+1+m2)

coin-toss贝努利实验


我们知道贝叶斯参数估计的基本过程是

先验分布 + 数据的知识 = 后验分布

以上贝叶斯分析过程的简单直观的表述就是

Beta(p|k,nk+1)+Count(m1,m2)=Beta(p|k+m1,nk+1+m2)

其中 (m1,m2) 对应的是二项分布B(m1+m2,p)的计数。更一般的,对于非负实数α,β,我们有如下关系
Beta(p|α,β)+Count(m1,m2)=Beta(p|α+m1,β+m2)

这个式子实际上描述的就是  Beta-Binomial 共轭,此处共轭的意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta 分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

而我们从以上过程可以看到,Beta 分布中的参数α,β都可以理解为物理计数,这两个参数经常被称为伪计数(pseudo-count)。基于以上逻辑,我们也可以把Beta(p|α,β)写成下式来理解

Beta(p|1,1)+Count(α1,β1)=Beta(p|α,β)  ()

其中 Beta(p|1,1) 恰好就是均匀分布Uniform(0,1)。

对于(***) 式,我们其实也可以纯粹从贝叶斯的角度来进行推导和理解。 假设有一个不均匀的硬币抛出正面的概率为p,抛m次后出现正面和反面的次数分别是m1,m2,那么按传统的频率学派观点,p的估计值应该为 pˆ=m1m。而从贝叶斯学派的观点来看,开始对硬币不均匀性一无所知,所以应该假设pUniform(0,1), 于是有了二项分布的计数(m1,m2)
之后,按照贝叶斯公式如下计算p 的后验分布

P(p|m1,m2)=P(p)P(m1,m2|p)P(m1,m2)=1P(m1,m2|p)10P(m1,m2|t)dt=(mm1)pm1(1p)m210(mm1)tm1(1t)m2dt=pm1(1p)m210tm1(1t)m2dt

计算得到的后验分布正好是 Beta(p|m1+1,m2+1)

beta-distribution

百变星君Beta分布

Beta 分布的概率密度我们把它画成图,会发现它是个百变星君,它可以是凹的、凸的、单调上升的、单调下降的;可以是曲线也可以是直线,而均匀分布也是特殊的Beta分布。由于Beta 分布能够拟合如此之多的形状,因此它在统计数据拟合中被广泛使用。

在上一个小节中,我们从二项分布推导Gamma 分布的时候,使用了如下的等式

P(Ck)=n!k!(nk1)!1ptk(1t)nk1dt,CB(n,p)

现在大家可以看到,左边是二项分布的概率累积,右边实际上是Beta(t|k+1,nk) 分布的概率积分。这个式子在上一小节中并没有给出证明,下面我们利用和魔鬼的游戏类似的概率物理过程进行证明。

我们可以如下构造二项分布,取随机变量 X1,X2,,XniidUniform(0,1),一个成功的贝努利实验就是 Xi<p,否则表示失败,于是成功的概率为pC用于计数成功的次数,于是CB(n,p)

beta-binomial

贝努利实验最多成功k

显然我们有如下式子成立

P(Ck)=P(X(k+1)>p)

此处X(k+1)是顺序统计量,为第k+1大的数。等式左边表示贝努利实验成功次数最多k次,右边表示第 k+1 大的数必然对应于失败的贝努利实验,从而失败次数最少是nk次,所以左右两边是等价的。由于X(k+1)Beta(t|k+1,nk), 于是

P(Ck)=P(X(k+1)>p)=1pBeta(t|k+1,nk)dt=n!k!(nk1)!1ptk(1t)nk1dt

最后我们再回到魔鬼的游戏,如果你按出的5个随机数字中,魔鬼告诉你有2个小于它手中第7大的数,那么你应该
按照如下概率分布的峰值做猜测是最好的

Beta(x|9,7)=15!(8)!(6)!x8(1x)6x[0,1]

很幸运的,你这次猜中了,魔鬼开始甩赖了:这个游戏对你来说太简单了,我要加大点难度,我们重新来一次,我按魔盒20下生成20个随机数,你同时给我猜第7大和第13大的数是什么,这时候应该如何猜测呢?

LDA-math-认识Beta/Dirichlet分布

LDA-math-认识Beta/Dirichlet分布 2013/01/14数学方法、概率论Beta 分布,Beta-Binomial 共轭, Dirichlet 分布, Dirichlet-M...
  • cynorr_
  • cynorr_
  • 2014年10月02日 20:42
  • 505

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

From :
  • u010140338
  • u010140338
  • 2014年11月21日 10:20
  • 3167

概率分布之Beta分布与Dirichlet分布

Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二...
  • jteng
  • jteng
  • 2017年03月04日 21:53
  • 2036

LDA-math-认识Beta/Dirichlet分布(3)

终于有了一点点认识,以前对LDA里面的东西头疼死了 http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%...
  • ZJU_Sutton
  • ZJU_Sutton
  • 2013年12月01日 20:21
  • 1117

LDA-math-认识Beta/Dirichlet分布(1)

文章转自http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%831 mark 一下 2....
  • ZJU_Sutton
  • ZJU_Sutton
  • 2013年12月01日 19:56
  • 887

从 Beta-Binomial 共轭到 Dirichlet-Multinomial 共轭

共轭分布: 我们首先来看 Beta-Binomial 共轭的形式: Beta(p|α,β)+BinomCount(m 1 ,m 2 )=Beta(p|α+m 1 ,β+m 2 )  Beta(p|\...
  • lanchunhui
  • lanchunhui
  • 2016年01月20日 17:44
  • 1163

认识beta和dirichlet分布

认识Beta/Dirichlet分布 本文主要是对rickjin的《LDA数学八卦》以及PRML一书中关于Beta分布和Dirichlet分布的知识整理。 我们知道Gamma函数  ...
  • liuhex
  • liuhex
  • 2017年02月16日 18:00
  • 391

从二项式分布到多项式分布-从Beta分布到Dirichlet分布(讲的实在太好了)

原文转自:http://hi.baidu.com/leifenglian/item/636198016851cee7f55ba652 一、前言 参数估计是一个重要的话题。对于典...
  • yishuihan1212
  • yishuihan1212
  • 2014年03月27日 16:59
  • 2013

beta分布 and Dirichlet分布

背景 在Machine Learning中,有一个很常见的概率分布叫做Beta Distribution: 同时,你可能也见过Dirichelet Distribution: 那么Beta ...
  • u011954647
  • u011954647
  • 2016年03月03日 16:04
  • 624

Beta 分布归一化的证明(系数是怎么来的),期望和方差的计算

1. Γ(a+b)Γ(a)Γ(b)\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}:归一化系数Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1 ...
  • lanchunhui
  • lanchunhui
  • 2017年07月21日 15:17
  • 1609
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LDA-math-认识Beta/Dirichlet分布(2)
举报原因:
原因补充:

(最多只允许输入30个字)