大家玩过抓娃娃的游戏就会知道,每次抓娃娃只会有两种可能:一种可能是成功抓到娃娃,另一种可能是抓不到娃娃。如果将“成功抓到娃娃”的概率设为P,那么“抓不到娃娃”的概率就是1-P。我们刚才进行的这种只有两种可能结果的游戏试验可以称作“伯努利试验”,试验的结果则满足“伯努利分布”。
一、伯努利分布
那么,如果我重复抓娃娃100次(n重伯努利分布试验),在这100次游戏中,我一次都没有抓到的概率是多大?只抓到1次的概率是多大?抓到2次,3次,4次,……,n次的概率是多大呢?
我将每种成功次数可能出现的概率都计算出来,得到的概率密度图服从“二项分布”。
二、二项分布
二项分布的性质:
①当n和p值固定时,b(k;n,p)先随k增加而增大,达到某一极大值后又逐渐下降。
二项分布的这一性质其实很容易理解,以我抓娃娃为例,我抓了100次娃娃,一次没抓到或次次都能抓到的可能性都是极小的,但会有一次最大可能成功次数,也就是二项分布的极大值。
②若将m称为最有可能的成功次数,通常m=【(n+1)p】,若(n + 1)p为整数时,则m− 1也为最可能成功次数。
假设我抓娃娃成功的概率是0.1,在上述进行的100次抓娃娃试验中,m = (100+1)*0.1 = 10.1 ≈ 10。即,我玩100次抓娃娃游戏,最大可能的成功次数是10次。
③固定n时,p越与1/2接近时,分布越接近对称。
从下图模拟实验得到的二项分布图进一步印证了这一性质:
上图中,在固定n时(n=20),当p=0.1,二项分布呈右偏;当p=0.5,二项分布呈正态分布趋势;当p=0.9,二项分布呈左偏。
案例:
在抓娃娃游戏中,我们已经知道了成功抓到娃娃的概率p为0.1,试验次数n为100,最可能抓取成功的次数m是10,那么,根据二项分布计算公式,我们可以知道成功抓取10次娃娃的相应概率:
三、泊松分布
泊松分布的定义:
泊松分布是二项分布的极限分布,当n比较大,p比较小(p≤ 0.1)时,二项分布就可近似地看成是参数λ = np的泊松分布:
若随机变量x可取一切非负整数值,且相应的概率分布为:
其中λ > 0,则称x服从泊松分布,简记作x∼p(λ)。若把在每次试验中出现概率很小的事件称作稀有事件,泊松分布可用来描述一定时间内稀有事件出现的次数。参数λ含义:一定时间内稀有事件发生的平均次数。
假如商家为了赚取更大的利润,而对娃娃机做了手脚,导致抓到娃娃成为稀有事件,成功抓到娃娃的可能性概率仅为0.0001。
如果我重复抓10000次娃娃,那么λ=np=0.0001*10000=1,抓到娃娃的最大成功次数m = (n + 1)p = np+p≈1。即,我玩10000次抓娃娃游戏,最大可能的结果是:仅抓到1次娃娃。
在概率p值不变的情况下,不断增加试验次数,可以以此增加稀有事件发生的次数(λ)。下图展示的就是λ取值不同时,泊松分布的概率密度和累计概率。
泊松分布能够用来分析生活中很多的随机现象。比如:
- 单位时间内洪水等事故发生的次数;
- 矿井在某段时间发生事故的次数;
- 单位时间内市级医院急诊病人数;
- 一本书中每页印刷错误的个数。
案例:
波特凯维茨(Bortkiewicz) 在《小数法则》一书里举了这么一个例子:从1875到1894年的20年间,德军的十四个军团有士兵被马踢伤致死的人数纪录,每年每个军团记录一次,总计有20×14=280条记录,按照每条记录中的死亡人数进行统计,得到了如下的表格。
这280个记录中,共有196人死亡,死亡率是 0.7,根据这一数据,波特凯维茨用泊松分布计算得出结果,可以看到泊松分布得出的结果和现实出奇地吻合。
这也再一次向大家印证了,统计学是一门理论联系实际,客观反映世界,非常具有实践性的学科。