超几何随机变量
1 定义
假定一个袋子里面有
N
N
N个球,其中有
m
m
m个白球,
N
−
m
N-m
N−m个黑球,现在随机地从袋子中不放回地取出
n
n
n个球,令随机变量
X
X
X表示取出来的白球数,则:
P
{
X
=
i
}
=
(
m
i
)
(
N
−
m
n
−
i
)
(
N
n
)
i
=
0
,
1
,
⋯
,
n
P\{X = i\} = \cfrac{\begin{pmatrix}m\\i\end{pmatrix}\begin{pmatrix}N-m\\n-i\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}}\ \ \ \ \ \ \ i = 0,1,\cdots,n
P{X=i}=(Nn)(mi)(N−mn−i) i=0,1,⋯,n
一个随机变量
X
X
X如果其概率质量函数形如上式,其中
N
,
m
,
n
N,m,n
N,m,n值给定,那么就称
X
X
X为超几何随机变量。
注意,
i
i
i的取值范围是0到
n
n
n,如果
i
i
i不满足
n
−
(
N
−
m
)
≤
i
≤
m
i
n
(
n
,
m
)
n-(N-m)\le i \le min(n,m)
n−(N−m)≤i≤min(n,m),那么
P
{
X
=
i
}
=
0
P\{X=i\} = 0
P{X=i}=0,但是上式总是成立的,因为我们规定了在
k
<
0
k\lt 0
k<0或
r
<
k
r\lt k
r<k时,
(
r
k
)
=
0
\begin{pmatrix}r\\k\end{pmatrix}=0
(rk)=0。
2 超几何随机变量的近似
现在我们已经知道了从
N
N
N个球(白球比例
p
=
m
/
N
p=m/N
p=m/N)中不放回地随机取
n
n
n个球,那么取中的白球数为超几何随机变量。现在考虑一种情况,即对与
n
n
n来说,如果
m
,
N
m,N
m,N都很大的话,那么有放回和无放回地取球没什么差别,因为不管取出来的是什么球,接下来取到白球的概率仍然近似于
p
p
p。直观感觉就是,当
m
,
N
m,N
m,N相对于
n
n
n很大时,
X
X
X的概率质量函数应该近似于参数为
(
n
,
p
)
(n,p)
(n,p)的二项随机变量的概率质量函数。我们来推导一下:
P
{
X
=
i
}
=
(
m
i
)
(
N
−
m
n
−
i
)
(
N
n
)
=
m
!
(
m
−
i
)
!
i
!
∗
(
N
−
m
)
!
(
N
−
m
−
n
+
i
)
!
(
n
−
i
)
!
∗
(
N
−
n
)
!
n
!
N
!
=
(
n
i
)
m
N
∗
m
−
1
N
−
1
⋯
N
−
m
N
−
i
∗
N
−
m
−
1
N
−
i
−
1
⋯
N
−
m
−
(
n
−
i
−
1
)
N
−
i
−
(
n
−
i
−
1
)
≈
(
n
i
)
p
i
(
1
−
p
)
n
−
i
\begin{aligned} P\{X = i\} &= \cfrac{\begin{pmatrix}m\\i\end{pmatrix}\begin{pmatrix}N-m\\n-i\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}}\\ &=\cfrac{m!}{(m-i)!i!}*\cfrac{(N-m)!}{(N-m-n+i)!(n-i)!}*\cfrac{(N-n)!n!}{N!}\\ &=\begin{pmatrix}n\\i\end{pmatrix}\cfrac{m}{N}*\cfrac{m-1}{N-1}\cdots\cfrac{N-m}{N-i}*\cfrac{N-m-1}{N-i-1}\cdots\cfrac{N-m-(n-i-1)}{N-i-(n-i-1)}\\ &\approx \begin{pmatrix}n\\i\end{pmatrix}p^i(1-p)^{n-i} \end{aligned}
P{X=i}=(Nn)(mi)(N−mn−i)=(m−i)!i!m!∗(N−m−n+i)!(n−i)!(N−m)!∗N!(N−n)!n!=(ni)Nm∗N−1m−1⋯N−iN−m∗N−i−1N−m−1⋯N−i−(n−i−1)N−m−(n−i−1)≈(ni)pi(1−p)n−i
其中最后一个等式成立的条件是
p
=
m
/
N
p=m/N
p=m/N且
m
,
N
m,N
m,N相对于
n
,
i
n,i
n,i来说都很大。
3 参数为 ( n , N , m ) (n,N,m) (n,N,m)的超几何随机变量的期望和方差
按照之前的期望和方差的求法,通过找到递推关系来计算,我们先来计算
E
[
X
k
]
E[X^k]
E[Xk]:
E
[
X
k
]
=
∑
i
=
0
n
i
k
P
{
X
=
i
}
=
∑
i
=
0
n
i
k
(
m
i
)
(
N
−
m
n
−
i
)
/
(
N
n
)
E[X^k] = \sum_{i=0}^ni^kP\{X=i\} =\sum_{i=0}^ni^k\begin{pmatrix}m\\i\end{pmatrix}\begin{pmatrix}N-m\\n-i\end{pmatrix}/\begin{pmatrix}N\\n\end{pmatrix}
E[Xk]=i=0∑nikP{X=i}=i=0∑nik(mi)(N−mn−i)/(Nn)
利用恒等式
i
(
m
i
)
=
m
(
m
−
1
i
−
1
)
,
n
(
N
n
)
=
N
(
N
−
1
n
−
1
)
i\begin{pmatrix}m\\i\end{pmatrix}=m\begin{pmatrix}m-1\\i-1\end{pmatrix},n\begin{pmatrix}N\\n\end{pmatrix}=N\begin{pmatrix}N-1\\n-1\end{pmatrix}
i(mi)=m(m−1i−1),n(Nn)=N(N−1n−1)带入上式得:
E
[
X
k
]
=
m
n
N
∑
i
=
1
n
i
k
−
1
(
m
−
1
i
−
1
)
(
N
−
m
n
−
i
)
/
(
N
−
1
n
−
1
)
E[X^k] = \cfrac{mn}{N}\sum_{i=1}^ni^{k-1}\begin{pmatrix}m-1\\i-1\end{pmatrix}\begin{pmatrix}N-m\\n-i\end{pmatrix}/\begin{pmatrix}N-1\\n-1\end{pmatrix}
E[Xk]=Nmni=1∑nik−1(m−1i−1)(N−mn−i)/(N−1n−1)
换元令
j
=
i
−
1
j = i-1
j=i−1,上式得:
E
[
X
k
]
=
m
n
N
∑
j
=
0
n
−
1
(
j
+
1
)
k
−
1
(
m
−
1
j
)
(
N
−
m
n
−
j
−
1
)
/
(
N
−
1
n
−
1
)
=
m
n
N
E
[
(
Y
+
1
)
k
−
1
]
\begin{aligned} E[X^k] &= \cfrac{mn}{N}\sum_{j=0}^{n-1}(j+1)^{k-1}\begin{pmatrix}m-1\\j\end{pmatrix}\begin{pmatrix}N-m\\n-j-1\end{pmatrix}/\begin{pmatrix}N-1\\n-1\end{pmatrix} \\ &=\cfrac{mn}{N}E[(Y+1)^{k-1}] \end{aligned}
E[Xk]=Nmnj=0∑n−1(j+1)k−1(m−1j)(N−mn−j−1)/(N−1n−1)=NmnE[(Y+1)k−1]
其中
Y
Y
Y为参数为
(
n
−
1
,
N
−
1
,
m
−
1
)
(n-1,N-1,m-1)
(n−1,N−1,m−1)的超几何随机变量。在上式的基础上令k = 1得到期望:
E
[
X
]
=
m
n
N
=
n
p
E[X] = \cfrac{mn}{N} = np
E[X]=Nmn=np
即取出白球数的期望值为
m
n
N
\cfrac{mn}{N}
Nmn。再令
k
=
2
k=2
k=2得到:
E
[
X
2
]
=
m
n
N
E
[
Y
+
1
]
=
m
n
N
[
(
m
−
1
)
(
n
−
1
)
N
−
1
+
1
]
E[X^2] = \cfrac{mn}{N}E[Y+1]=\cfrac{mn}{N}[\cfrac{(m-1)(n-1)}{N-1}+1]
E[X2]=NmnE[Y+1]=Nmn[N−1(m−1)(n−1)+1]
则方程
V
a
r
(
X
)
Var(X)
Var(X)为:
V
a
r
(
X
)
=
E
[
X
2
]
−
E
[
X
]
2
=
m
n
N
[
(
m
−
1
)
(
n
−
1
)
N
−
1
+
1
−
m
n
N
]
=
n
p
(
1
−
p
)
(
1
−
n
−
1
N
−
1
)
Var(X) = E[X^2] - E[X]^2 = \cfrac{mn}{N}[\cfrac{(m-1)(n-1)}{N-1}+1-\cfrac{mn}{N}]\\ = np(1-p)(1-\cfrac{n-1}{N-1})
Var(X)=E[X2]−E[X]2=Nmn[N−1(m−1)(n−1)+1−Nmn]=np(1−p)(1−N−1n−1)
根据上一节的内容,当
N
,
m
N,m
N,m相对于
n
,
i
n,i
n,i很大时,上式方差
V
a
r
(
X
)
Var(X)
Var(X)近似于:
V
a
r
(
X
)
≈
n
p
(
1
−
p
)
Var(X)\approx np(1-p)
Var(X)≈np(1−p)
总的来说,
E
[
X
]
E[X]
E[X]与有放回取球(即白球数是参数为
(
n
,
p
)
(n,p)
(n,p)的二项随机变量)是一样的,而当球数很大时,
V
a
r
(
X
)
Var(X)
Var(X)近似于有放回的情形。
参考资料:《概率论基础教程》Sheldon M.Ross