二项分布(Binomial distribution)
要介绍二项分布,先要介绍伯努利实验,然后自然而然就想到了抛硬币问题,正面朝上的概率为p,反面朝上的概率为q (q = 1 - p),假设正面朝上标记为1,反面朝上为0,则一次伯努利实验的期望为p,方差为p*q。
二项分布是对n次伯努利实验正面朝上(或反面朝上)次数及其概率进行刻画的一种离散分布。
官方一点表述是n次独立伯努利试验成功次数的离散概率分布(当n = 1时,又称为伯努利分布)。
二项分布的概率表现形式(概率质量函数PMF)为:
Pr(X = k) =
(
n
k
)
n \choose k
(kn)
p
k
q
n
−
k
p^{k}q^{n-k}
pkqn−k,k = 0,1,2,…n
假设B1,B2,,,Bn为n次独立的伯努利试验,根据期望和方差的公式:
二项分布的期望为:
E(B1 + B2 + … + Bn) = nE(B1) = np
方差:
V(B1 + B2 + … + Bn) = nV(B1) = np*q
关于二项分布的例子
1,连续独立地抛硬币n次,统计正面朝上的次数及其概率,它在理论上服从二项分布(这是p = q = 0.5的情况)。
2,连续独立地掷骰子(6个面)n次,统计点数为6的次数及其概率,这是p = 1/6,q = 5/6的情况。
3,在p比较小,n比较大时可以用泊松分布来近似(一个保守的法则是n>= 100 & p <= 0.01)。
4,当npq >= 5 时,用正态分布来近似二项分布是合适的。
泊松分布(Poisson distribution)
二项分布的命名是因为有成功和失败两项,泊松分布则是根据泊松这个人来命名的。它也是离散概率分布,与稀有事件的发生有关。
考虑下面几个事件:
1,整个下午通过某个不繁忙路口的汽车数服从泊松分布。
将整个下午(时间长度为T)分成很多小段时间
Δ
t
\Delta t
Δt,对于每一小段,通过一辆车的概率为
P
r
(
X
=
1
)
=
λ
Δ
t
(
λ
为
单
位
时
间
内
通
过
车
辆
的
期
望
数
)
Pr(X = 1) = \lambda\Delta t(\lambda为单位时间内通过车辆的期望数)
Pr(X=1)=λΔt(λ为单位时间内通过车辆的期望数),则整个下午通过该路口的车辆数服从参数为
λ
T
\lambda T
λT的泊松分布。
2,面积为A的琼脂培养皿上的细菌群体数服从泊松分布。
将整个培养皿分成很多小块
Δ
A
,
在
小
区
域
内
发
现
1
个
菌
群
的
概
率
为
P
r
(
X
=
1
)
=
λ
Δ
A
(
λ
为
单
位
面
积
内
菌
群
的
期
望
数
)
\Delta A,在小区域内发现1个菌群的概率为Pr(X = 1) = \lambda \Delta A(\lambda为单位面积内菌群的期望数)
ΔA,在小区域内发现1个菌群的概率为Pr(X=1)=λΔA(λ为单位面积内菌群的期望数),则整个培养皿上的菌群数服从参数为
λ
A
\lambda A
λA的泊松分布。
3,1年时间内得伤寒去世的人数服从泊松分布
将一年的时间分成很多小段,跟前面一样,
λ
\lambda
λ 为单位时间内死亡人数的期望值,则1年内因伤寒死亡人数的服从
λ
T
\lambda T
λT的泊松分布。
上述几个例子都满足:
1,都是罕见事件;
2,将整体分成的小段间彼此独立;
3,在整个长时间区间内,任一单位长度上事件的发生数不变化。
泊松分布的其它例子:
1,普鲁士陆军被马踢死的概率;
2,出生缺陷和基因突变;
3,每页纸的打印错误;
4,麦当劳汉堡中的头发数;
5,每月机器出故障的次数。
泊松分布的公式:
P
r
(
X
=
k
)
=
e
−
μ
μ
k
k
!
,
k
=
0
,
1
,
2...
Pr(X = k) = e^{-\mu}\frac{\mu^{k}}{k!}, k = 0,1,2...
Pr(X=k)=e−μk!μk,k=0,1,2...
μ
=
λ
t
为
指
定
时
间
发
生
事
件
的
期
望
数
\mu = \lambda t为指定时间发生事件的期望数
μ=λt为指定时间发生事件的期望数