认识beta和dirichlet分布

最新推荐文章于 2024-07-25 15:05:43 发布

liuhex

最新推荐文章于 2024-07-25 15:05:43 发布

阅读量1.5k

点赞数

认识Beta/Dirichlet分布

本文主要是对rickjin的《LDA数学八卦》以及PRML一书中关于Beta分布和Dirichlet分布的知识整理。

我们知道Gamma函数

Γ (x) = \int \infty 0 t x - 1 e - t d t

是阶乘运算在实数集上延伸。它具有如下性质

Γ (x + 1) = x Γ (x)

所以，我们其实有 Γ(n)=(n−1)!

是不是感觉有些奇怪？为什么不是 Γ(n)=n! 而是 Γ(n)=(n−1)! ？
今天读了rickjin的《LDA数学八卦》才知道，原来欧拉是研究了Beta函数

B (m, n) = \int 10 x m - 1 (1 - x) n - 1 d x

之后，他发现，如果Gamma函数的定义选取满足 Γ(n)=(n−1)! ,那么Beta函数会有一个很漂亮的对称形式

B (m, n) = Γ ( m ) Γ ( n ) Γ ( m + n )

而如果选取 Γ(n)=n! 的定义，则有

B' (m, n) = Γ ( m ) Γ ( n ) Γ ( m + n + 1 )

这个形式显然不如B(m,n)优美，而数学家总是很在乎美感的。

讲完了Gamma函数，我们再来扒一扒Beta函数，他又有什么物理意义呢？

Beta分布

我之前找工作面试的时候，曾经被面过这么一个题目

X∼Uniform(0,1) ;
随机生成10个数，把这10个数排序后得到的顺序统计量是 X1,X2,...,Xn ;
问第7大的数的概率分布?

那时候我是不知道Beta分布，否则肯定不会被虐的这么惨::>_<::

我们先将之一般化，对于一般的情况 Xk 的概率密度是什么呢？下面，我们尝试计算一下 Xk 落在一个区间 [x,x+Δx] 的概率值

P (x \leq X k \leq x + Δ x) = ?

beta_distribution

如上图所示，我们把[0,1]区间分成三段 [0,x),[x,x+Δx],(x+Δx,1] 三段。我们假定， Δx 足够小，只能够容纳一个点,则由排列组合理论可得

P (x \leq X k \leq x + Δ x) = (n 1) Δ x (n - 1 k - 1) x k - 1 (1 - x - Δ x) n - k

所以我们可以得到 Xk 的概率密度函数为

f (x) = lim x \to 0 P ( x \leq X k \leq x + Δ x ) Δ x = (n 1) (n - 1 k - 1) x k - 1 (1 - x) n - k = n ! ( k - 1 ) ! ( n - k ) ! x k - 1 (1 - x) n - k = Γ ( n + 1 ) Γ ( k ) Γ ( n - k + 1 ) x k - 1 (1 - x) n - k

我们取 α=k,β=n−k+1 ,于是

f (x) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α - 1 (1 - x) β - 1

这就是Beta分布！
回到上面那个面试题，把 n=10,k=7 带入其中，得到密度函数

f (x) = 10 ! 6 ! \times 3 ! x 6 (1 - x) 3, x \in [0, 1]

Beta-Binomial共轭

上边的面试题还有几个衍化版本，我们先看第一个衍化版本：

X∼Uniform(0,1) ;
随机生成n个数,由小到大排序后为 X1,X2,...,Xn ,我们要猜测第k大的数 p=Xk ;
我们再生成m个数， Y1,Y2,...,Ym∼Uniform(0,1) , 其中有 mi 个数比p小， m2 比p大；
求 P(p‖Y1,Y2,...,Ym) 的分布是什么。

容易看出，我们一共生成了 m+n 个数，而 p=Xk 在最终生成的m+n个数中，是第 k+m1 大的。按照我们之前讲过的Beta分布的逻辑，p其实应该服从 α=k+m1,β=n−k+1+m2 的Beta分布。我们知道贝叶斯学派进行参数估计的基本过程是

先验分布 + 后验数据 = 后验分布

对应到Beta分布，后验数据其实相当于是做了m次Bernoulli实验，其中 m1 次比p小， m2 次比p大，相当于

B e t a (p ‖ α, β) + B i n o m C o u n t (m 1, m 2) = B e t a (p ‖ α + m 1, β + m 2)

上面这个式子描述的就是 Beta−Bonomial共轭 .

共轭的意思是，参数的先验分布和后验分布都能保持Beta分布的形式，这样的好处是，我们能够在先验分布中赋予参数明确的物理意义，并且这个物理意义可以通过后验数据，延续到后验分布中进行解释。

由上边的解释可知，Beta分布重的参数 α,β 其实都可以理解为物理技术，这两个参数也经常被称为伪计数（pseudo-count)。所以， Beta(α,β) 也可以理解为

B e t a (α, β) = B e t a (1, 1) + B i n o m C o u n t (α - 1, β - 1)

其中

B e t a (1, 1) = Γ ( 1 + 1 ) Γ ( 1 ) Γ ( 1 ) x 1 - 1 (1 - x) 1 - 1 = 1

这恰好就是均匀分布 Uniform(0,1) 。

贝叶斯学派和频率学派的不同
>假设有一个不均匀的硬币，抛出正面的概率为p，抛掷 m 次后，出现正面和翻面的次数分别为 m1 和 m2 ，那么按照传统频率学派的观点，p的估计值应该为 p̂ =m1m ,而从贝叶斯学派的观点来看，开始对硬币不均匀性一无所知，所以应该假设p服从均匀分布 Uniform(0,1) ,也就是 Beta(1,1) ,于是在有了后验数据之后，我们得出p其实应该服从 Beta(p|m1+1,m2+1) .

百变星君Beta分布

beta

Beta分布的概率密度如上图， α,β 的不同，他可以是凹的、凸的、单调上升的、单调下降的，可以是曲线也可以是直线；而且，如前所述，均匀分布也是Beta分布的一种特殊形式。正是由于Beta分布能够你和如何之多的形状，因此他经常被贝叶斯学派用作先验分布。

Dirichlet-Multinomial共轭：Beta分布的高维推广

更一步的问题

X∼Uniform(0,1) ;
随机生成n个数，排序后为 X1,X2,...,Xn ;
求 (Xk1,Xk2) 的联合分布。

同推导Beta分布类似,我们取 Δx 足够小，只能容纳一个点.

Dirichlet

由于 Δx 足够小，我们有 x1+x2+x3=1 .

P (X k 1 \in (x 1, x 1 + Δ x), X k 1 + k 2 \in (x 2, x 2 + Δ x)) = (n 1) (n - 1 1) (n - 2 k 1 - 1 , k 2 - 1) x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3 (Δ x) 2

于是我们得到 (Xk1,Xk2) 的联合分布为

f (x 1, x 2, x 3) = n ! ( k 1 - 1 ) ! ( k 2 - 1 ) ! ( n - k 1 - k 2 ) ! x k 1 - 1 1 x 2 k 2 - 1 x n - k 1 - k 2 3 = G a m m a ( n + 1 ) Γ ( k 1 ) Γ ( k 2 ) Γ ( n - k 1 - k 2 + 1 ) x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3

令 α1=k1,α2=k2,α3=n−k1−k2+1 ,我们得到

f (x 1, x 2, x 3) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x α 1 - 1 1 x α 2 - 1 2 x α 3 - 1 3

上边这个分布其实就是一个三维形式的Dirichlet分布 Dir(α1,α2,α3) .同Beta分布类似，Dirichlet分布也是一个百变星君，下图为不同 α 值时Dirichlet分布的图像。

Dirichlet_distribution_pic

一般形式的Dirichlet分布定义如下

D i r (p ⃗ ‖ α ⃗) = Γ ( \sum K k = 1 α k ) \prod k = 1 K Γ ( α k ) \prod k = 1 K p α k - 1 k

Dirichlet分布也是Binomial共轭的

D i r (p ⃗ ‖ α ⃗) + M u l t C o u n t (m ⃗) = D i r (p ⃗ ‖ α ⃗ + m ⃗)

我们同样也有

D i r (p ⃗ ‖ α ⃗) = D i r (p ⃗ ‖ 1 ⃗) + M u l t C o u n t (m ⃗ - 1 ⃗)

Beta分布和Dirichlet分布的性质

如果 p∼Beta(t‖α,β) ,则

E (p) = \int 10 t * B e t a (t ‖ α, β) d t = \int 10 t * Γ ( α + β ) Γ ( α ) Γ ( β ) t α - 1 (1 - t) β - 1 d t = Γ ( α + β ) Γ ( α ) Γ ( β ) \int 10 t α (1 - t) β - 1 d t

上式右边的积分对应到概率分布 Beta(t‖α+1,β)

B e t a (t ‖ α + 1, β) = \int 10 t * Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) t α (1 - t) β - 1 d t

而且我们有

\int 10 B e t a (t ‖ α + 1, β) d t = 1

所以我们有

\int 10 t α (1 - t) β - 1 d t = Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 )

把上式带入E(p)中得

E (p) = Γ ( α + β ) Γ ( α ) Γ ( β ) \cdot Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = α α + β

同样的，对于Dirichlet分布我们可以得到

E (p ⃗) = (α 1 \sum i = 1 K α i, α 2 \sum i = 1 K α i, . . ., α K \sum i = 1 K α i)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

liuhex CSDN认证博客专家 CSDN认证企业博客

码龄16年

0: 原创

53万+: 周排名

36万+: 总排名

3万+: 访问

: 等级

357: 积分

27: 粉丝

9: 获赞

3: 评论

28: 收藏

私信

关注

热门文章

最新评论

Kafka高可用性实现原理
小人物大梦想: 写代码的时候总是想象维护你代码的家伙是一个知道你住在哪里的暴力精神病患者。诚信互关，来自一个奋斗的老菜鸟
认识beta和dirichlet分布
m不器: 公式怎么都不全
google mock《转载》
liuhex: Gmock 在mock 虚函数的时候，最多有10个参数如果想设置参数指针或引用的值，可以使用下面的方式： .WillOnce(DoAll(SetArgPointee<0>(5), Return(true))); SetArgReferee<1>('a');

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。