从随机变量到顺序统计量
考虑如下的游戏:有一个魔盒(随机数生成器),上有一个按钮,每按一下按钮,就均匀地输出一个 U∼[0,1] 之间的随机数,现在按上下,得到10个随机数,第7大的数是多少?我更进一步发问,第7大的数,要求猜测不超过0.01才算对。
对上面的游戏作如下的数学抽象:
- X1,X2,⋯,Xn∼iidU(0,1)
- 把这
n
个随机变量排序后得到的顺序统计量
X(1),X(2),…,X(n) - 问 X(k) 的分布是什么?
对于上面的游戏而言
n=10,k=7
,如果我们能求出
X(7)
的分布的概率密度,那么用概率密度的极值点取做猜测是最好的策略。对于一般的情形,
X(k)
的分布是什么呢?那么我们尝试计算
X(k)
落在区间
[x,x+Δx]
的概率,也即求如下的概率值:
把
[0,1]
区间内分为三段
[0,x),[x,x+Δx],(x+Δx,1]
,我们首先考虑简单的情形(这不正是数学研究的基本方法论吗,从简单到复杂),假设
n
个数中只有一个落在了区间
- 则
-
(x+Δx]
这个区间中应该有
n−k
个数。
不失一般性的,我们先考虑如下的一个符合上述要求的事件
E
:
则有:
对 (1−x−Δx)n−k 应用二项展开,也即:
其中 o(Δx) 表示 Δx 的高阶无穷小,所以,可对 P(E) ,继续展开得:
再来考虑这之中的组合数,也即 n 个数中有一个落在
继续考虑稍微复杂一点的情形,假设
n
个数有两个数落在了区间
则有:
从以上的分析我们很容易看出,只要落在 [x,x+Δx] 内的数字超过一个,则对应的事件的概率就是 o(Δx) 。于是:
所以可以得到 X(k) 的概率密度为:
利用Gamma函数,我们可以把 f(x) 表达为:
还记得神奇的Gamma函数可以把许多数学概念从整数集合延拓到实数集合。
我们记
α=k,β=n−k+1
,于是我们得到:
这就是一般意义上的Beta分布。
好,我们回到开始的游戏, n=10,k=7 ,我们按照如下的密度分布的峰值取猜测是最有把握的: