LDA-math-认识Beta/Dirichlet分布(1)

转载 2013年12月01日 19:56:17

文章转自http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%831

mark 一下

2. 认识Beta/Dirichlet分布
2.1 魔鬼的游戏—认识Beta 分布

统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了,撒旦说:”你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。“ 你应该怎么猜呢?

从数学的角度抽象一下,上面这个游戏其实是在说随机变量X1,X2,,XniidUniform(0,1),把这n 个随机变量排序后得到顺序统计量 X(1),X(2),X(n), 然后问 X(k) 的分布是什么。

对于不喜欢数学的同学而言,估计每个概率分布都是一个恶魔,那在概率统计学中,均匀分布应该算得上是潘多拉魔盒,几乎所有重要的概率分布都可以从均匀分布Uniform(0,1)中生成出来;尤其是在统计模拟中,所有统计分布的随机样本都是通过均匀分布产生的。

pandora潘多拉魔盒Uniform(0,1)


对于上面的游戏而言 n=10,k=7, 如果我们能求出 X(7) 的分布的概率密度,那么用概率密度的极值点去做猜测就是最好的策略。对于一般的情形,X(k) 的分布是什么呢?那我们尝试计算一下X(k) 落在一个区间 [x,x+Δx] 的概率,也就是求如下概率值

P(xX(k)x+Δx)=?

把 [0,1] 区间分成三段 [0,x),[x,x+Δx],(x+Δx,1],我们先考虑简单的情形,假设n 个数中只有一个落在了区间 [x,x+Δx]内,则因为这个区间内的数X(k)是第k大的,则[0,x)中应该有 k1 个数,(x,1] 这个区间中应该有nk 个数。不失一般性,我们先考虑如下一个符合上述要求的事件E

E={X1[x,x+Δx],Xi[0,x)(i=2,,k),Xj(x+Δx,1](j=k+1,,n)}

beta-game-1事件 E

则有

P(E)=i=1nP(Xi)=xk1(1xΔx)nkΔx=xk1(1x)nkΔx+o(Δx)

o(Δx)表示Δx的高阶无穷小。显然,由于不同的排列组合,即n个数中有一个落在 [x,x+Δx]区间的有n种取法,余下n1个数中有k1个落在[0,x)的有(n1k1)种组合,所以和事件E等价的事件一共有 n(n1k1)个。继续考虑稍微复杂一点情形,假设n 个数中有两个数落在了区间 [x,x+Δx]

E={X1,X2[x,x+Δx],Xi[0,x)(i=3,,k),Xj(x+Δx,1](j=k+1,,n)}

beta-game-2事件E’

则有

P(E)=xk2(1xΔx)nk(Δx)2=o(Δx)

从以上分析我们很容易看出,只要落在[x,x+Δx]内的数字超过一个,则对应的事件的概率就是 o(Δx)。于是
P(xX(k)x+Δx)=n(n1k1)P(E)+o(Δx)=n(n1k1)xk1(1x)nkΔx+o(Δx)

所以,可以得到X(k)的概率密度函数为
f(x)=limΔx0P(xX(k)x+Δx)Δx=n(n1k1)xk1(1x)nk=n!(k1)!(nk)!xk1(1x)nkx[0,1]

利用Gamma 函数,我们可以把 f(x) 表达为
f(x)=Γ(n+1)Γ(k)Γ(nk+1)xk1(1x)nk

还记得神奇的 Gamma 函数可以把很多数学概念从整数集合延拓到实数集合吧。我们在上式中取α=k,β=nk+1, 于是我们得到

f(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1

这个就是一般意义上的 Beta 分布!可以证明,在α,β取非负实数的时候,这个概率密度函数也都是良定义的。

好,我们回到魔鬼的游戏,这n=10,k=7这个具体的实例中,我们按照如下密度分布的峰值去猜测才是最有把握的。

f(x)=10!(6)!(3)!x6(1x)3x[0,1]

然而即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个[0,1]之间的随机数,然后我可以告诉你这5个数中的每一个,和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢?

简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

引言 LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习...
  • google19890102
  • google19890102
  • 2016年01月25日 16:03
  • 12508

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

from:http://blog.csdn.net/u010140338/article/details/41344853 From : http://www.cnblogs.com/w...
  • Real_Myth
  • Real_Myth
  • 2015年08月14日 13:36
  • 1356

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

From :
  • u010140338
  • u010140338
  • 2014年11月21日 10:20
  • 3054

LDA-math-认识Beta/Dirichlet分布

2. 认识Beta/Dirichlet分布 2.1 魔鬼的游戏—认识Beta 分布 统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走...
  • u014032673
  • u014032673
  • 2015年05月04日 16:29
  • 403

LDA基础知识系列 ---- (2)Dirichlet 分布

本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布的相关内容。   理解LDA,可以分为下述5个步骤: ...
  • m0_37788308
  • m0_37788308
  • 2017年12月31日 16:36
  • 36

beta分布和Dirichlet分布

经过前面的铺垫,下面正式进入主题: Gamma函数: 贝塔函数: 附赠贝塔函数的化简过程 贝塔分布的实验 实验一:有一个魔盒,上面有一个按钮,你每按一下按...
  • u014689510
  • u014689510
  • 2015年12月19日 14:07
  • 529

beta分布 and Dirichlet分布

背景 在Machine Learning中,有一个很常见的概率分布叫做Beta Distribution: 同时,你可能也见过Dirichelet Distribution: 那么Beta ...
  • u011954647
  • u011954647
  • 2016年03月03日 16:04
  • 586

机器学习知识点(二十八)Beta分布和Dirichlet分布理解

1、二者关系:      Dirichlet分布是Beta分布的多元推广。Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布。      通常情况下,我们说的分布都是...
  • fjssharpsword
  • fjssharpsword
  • 2017年05月17日 10:30
  • 1883

如何理解Beta分布和Dirichlet分布?

背景 在Machine Learning中,有一个很常见的概率分布叫做Beta Distribution: 同时,你可能也见过Dirichelet Distribution: ...
  • aihali
  • aihali
  • 2015年05月04日 10:01
  • 665

【转载】 Beta分布和Dirichlet分布

本文转载至:http://maider.blog.sohu.com/306392863.html 如何理解Beta分布和Dirichlet分布?   ...
  • baidu_34604003
  • baidu_34604003
  • 2016年10月17日 11:43
  • 127
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LDA-math-认识Beta/Dirichlet分布(1)
举报原因:
原因补充:

(最多只允许输入30个字)