漫步数理统计二十二——二项及相关分布

之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始。

伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或死,有缺陷或物缺陷)。当我们独立的执行几次伯努利试验使得每次成功的概率(假设为 p )都相等,那么就得到伯努利序列。

X是与伯努利试验相关的随机变量,定义如下

X()=1,X()=0

即两个输出量成功与失败,分别用1与0表示。 X 的pmf可以写成

p(x)=px(1p)1x,x=0,1

我们说 X 满足伯努利分布,X的期望值为

μ=E(X)=x=11xpx(1p)1x=(0)(1p)+(1)(p)=p

X 的方差为
σ2=var(X)=xp2px(1p)1x=p2(1p)+(1p)2p=p(1p)

X 的标准差为σ=p(1p)

在进行 n 次伯努利试验所得的序列中,令Xi表示第 i 次试验相关的伯努利随机变量,那么这个序列的观测序列为零一的n元组,对于这样的序列,我们通常对成功的个数而不是序列的次数感兴趣。如果令随机变量 X 等于成功的总数,那么X的可能值为 0,1,2,3,,n ,如果 x 次成功,其中x=0,1,2,,n,那么 nx 次为失败,这种方式发生的总数为

(nx)=n!x!(nx)!

因为实验室独立的且每次试验中成功与失败的概率分别为 p,1p ,总概率为 px(1p)nx ,所以 X 的pmf(p(x))是(nx)个互相独立事件的概率和;即

p(x)={(nx)px(1p)nx0x=0,1,2,,nelsewhere

回忆一下,如果 n 是正整数,

(a+b)n=x=0n(nx)bxanx

那么很明显 p(x)>0

xp(x)=x=0n(nx)px(1p)nx=[(1p)+p]n=1

因此, p(x) 满足离散型随机变量 X pmf的条件,有形如p(x)这样pmf的随机变量称为满足二项分布,任何这样的 p(x) 称为二项pmf。二项分布有符号 b(n,p) 表示,常数 n,p 称为二项分布的参数,因此如果我们说 X b(5,13),意思是指 X 的二项pmf为

p(x)={(5x)13x235x0x=0,1,,5elsewhere

t 的所有实值,二项分布的mgf通过下式很容易算出来

M(t)=xetxp(x)=x=0netx(nx)px(1p)nx=x=0n(nx)(pet)x(1p)nx=[(1p)+pet]n

X 的均值μ与方差 σ2 可以从 M(t) 中计算出来。因为

M=n[(1p)+pet]n1(pet)


M′′(t)=n[1p+pet]n1(pet)+n(n1)[(1p)+pet]n2(pet)2

因此

μ=M(0)=np


σ2=M′′(0)μ2=np+n(n1)p2(np)2=np(1p)

1 X 是抛7次均匀硬币后头朝上的总数,X的pmf为

p(x)={(7x)(12)x(112)7x0x=0,1,2,,7elsewhere

那么 X 的mgf为

M(t)=(12+12et)7

均值 μ=np=72 ,方差 σ2=np(1p)=74 ,更进一步,我们有

P(0X1)=x=01p(x)=1128+7128=8128


P(X=5)=p(5)=7!5!2!(12)5(12)2=21128

2 如果随机变量 X 的mgf为

M(t)=(23+13et)5

那么 X 满足n=5,p=13的二项分布;即, X 的pmf为

p(x)=(5x)(13)x(23)5x0x=0,1,2,,5elsewhere

这里 μ=np=53,σ2=np(1p)=109

3 如果 Y 满足b(n,13),那么 P(Y1)=1P(Y=0)=1(23)n ,假设我们想找出使得 P(Y1)>0.80 的最小 n 值,我们有1(23)n>0.80,0.20>(23)n。通过计算可以看出 n=4 就是其解,即 n=4 次独立随机试验中,至少有一次成功的概率大于0.80。

4 随机变量 Y 等于n次独立随机试验中成功的个数,其中成功的概率为 p ,即Y满足 b(n,p) 。比率 Y/n 称为成功的相对频率。回忆一下切比雪夫不等式,应用这个结果上我们就有,对于所有的 ϵ>0

P(Ynpϵ)var(Y/n)ϵ2=p(1p)nϵ2

现在对于每个固定的 ϵ>0 ,上面不等式的右边对于充分大的 n 靠近零,即

limnP(Ynpϵ)=0


limnP(Ynp<ϵ)=1

因为对每个固定的 ϵ>0 上式都成立,从这个意义上来说,当 n 充分大时成功的相对频率接近成功的概率。这个结论就是弱大数定律的一个形式。

5独立随机变量 X1,X2,X3 有相同的cdf F(x) Y X1,X2,X3的中间值,为了确定 Y 的cdf(FY(y)=P(Yy)),我们注意到当且仅当至少两个随机变量 X1,X2,X3 小于或等于 y Yy。如果 Xiy,i=1,2,3 ,那么我们说第 i 次试验成功;这里每个试验成功的概率为F(y)。这样的话 FY(y)=P(Yy) 就是三个独立试验中至少两个成功的概率,故

FY(y)=(32)[F(y)]2[1F(y)]+[F(y)]3

如果 F(x) 是一个连续的cdf,使得 X 的pdf为F(x)=f(x),那么 Y 的pdf为

fY(y)=FY(y)=6[F(y)][1F(y)]f(y)

6 考虑一个独立重复的随机试验序列,成功概率为 p 。令随机变量Y表示第 r 次成功前失败的总数,即Y+r等于精确产生 r 个成功所需要的试验次数,这里r是固定的正整数。为了确定 Y 的pmf,令y {y:y=0,1,2,} 中的元素,那么根据概率的乘法规则, P(Y=y)=g(y) 等于前 y+r1 次试验中 r1 次成功的概率

(y+r1r1)pr1(1p)y

与第 (y+r) 次试验成功概率 p 的乘积,因此Y的pmf为

pY(y)={(y+r1r1)pr(1p)y0y=0,1,2,elsewhere

形式为 pY(y) pmf的分布称为负二项分布;任何这样的 pY(y) 称为负二项pmf。该分布的名字来源于这个事实: pY(y) pr[1(1p)]r 展开式中的一般项。

假设我们有几个独立的二项分布,他们有相同的成功概率,那么这些随机变量的和如下面定理所述是二项的,注意mgf方法给出了又快又简单的证明。

1 X1,X2,,Xm 是独立的随机变量,使得 Xi 满足二项 b(ni,p) 分布,其中 i=1,2,,m 。令 Y=Σmi=1Xi ,那么 Y 满足二项b(Σmi=1ni,p)分布。

利用 Xi 的独立性与 Xi 的mgf,我们可以得到 Y 的mgf如下:

MY(t)=E[expi=1mtXi]=E[i=1mexptXi]=i=1mE[exptXi]=i=1m(1p+pet)ni=(1p+pet)Σmi=1ni

这里 Y 满足b(Σmi=1ni,p)的二项分布。

二项分布可以推广到多项分布。令随机试验独立的重复 n 次,每次试验从k 个互斥且有穷的 C1,C2,,Ck 中产生一个结果, pi 表示结果为 Ci 中元素的概率,整个 n 次独立重复试验中pi保持常数,其中 i=1,2,,k 。 将随机变量 Xi 定义为结果为 Ci 中元素的总数,进一步, x1,x2,,xk1 为非负整数使得 x1+x2++xk1n ,那么 x1 个结果在 C1 中, xk1 个结果在 Ck1 中, n(x1++xk1) 个结果在 Ck 中的概率为

n!x1!xk1!xk!px11pxk1k1pxkk

其中 xk n(x1++xk1) 的缩写。这就是 k1 个离散随机变量 X1,X2,,Xk1 的多项pmf。为了理解其正确性,注意 x1 C1 x2 C2 xk Ck 的不同排列共有

(nx1)(nx1x2)(nx1xk2xk1)=n!x1!x2!xk!

因此这两个表达式的乘积给出了正确的概率,这与前面多项pmf是一致的。

k=3 时,我们常令 X=X1,Y=X2 ;那么 nXY=X3 。我们说 X,Y 满足三项分布, X,Y 的联合pmf为

p(x,y)=n!x!y!(nxy)!px1py2pnxy3

其中 x,y 是非负整数,满足 x+yn p1,p2,p3 是满足 p1+p2+p3=1 的分数;其余地方 p(x,y)=0 。故 p(x,y) 满足成为离散随机变量 X,Y 联合pmf的条件;即 p(x,y) 是非负的并且在所有满足 p(x,y) 为正的点 (x,y) 上的和等于 (p1+p2+p3)n=1

如果 n 是正整数且a1,a2,a3是固定的常数,我们有

x=0ny=0nxn!x!y!(nxy)!ax1ay2anxy3=x=0nn!ax1x!(nx)!y=0nx(nx)!y!(nxy)!ay2anxy3=x=0nn!x!(nx)!ax1(a2+a3)nx=x=0nn!x!(nx)!ax1(a2+a3)nx=(a1+a2+a3)n

所以对于 t1,t2 的所有实数,三项分布的mgf为

M(t1,t2)=x=0ny=0nxn!x!y!(nxy)!(p1et1)x(p2et2)ypnxy3=(p1et1+p2et2+p3)n

X,Y 边缘分布的矩生成函数分别为

M(t1,0)=(p1et1+p2+p3)n=[(1p1)+p1et1]n


M(0,t2)=(p1+p2et2+p3)n=[(1p2)+p2et2]n

根据之前提到的定理(假设随机变量 X1X2 的联合mgf M(t1,t2) 存在,那么 X1,X2 独立,当且仅当

M(t1,t2)=M(t1,0)M(0,t2)

即联合mgf可以分解成边缘mgf的乘积)可以看出 X,Y 不是独立的随机变量。另外 X 满足b(n,p1),Y满足 b(n,p2) X,Y 的均值与方差分别为 μ1=np1,μ2=np2,σ21=np1(1p1),σ22=np2(1p2)

接下来考虑给定 X=x Y 的条件pmf,我们有

p2|1(y|x)=(nx)!y!(nxy)!(p21p1)y(p31p1)nxy0y=0,1,,nxelsewhere

那么给定 X=x,Y 的条件分布为 b[nx,p2/(1p1)] ,因此给定 X=x,Y 的条件期望是线性函数

E(Y|x)=(nx)(p21=p1)

另外给定 Y=y,X 的条件分布为 b[ny,p1/(1p2)] 所以

E(X|y)=(ny)(p11p2)

一般而言,对 t1,t2,,tk1 的所有实值,多项分布的mgf为

M(t1,,tk1)=(p1et1++pk1etk1+pk)n

因此单变量的边缘pmf是二项形式,两个变量的边缘pmf是三项形式,依次类推。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值