二项分布
二项分布(binomial distribution)就是在重复n次独立的伯努利试验(Bernoulli experiment)中,所期望结果出现次数的概率分布。
伯努利试验的特点:
- 每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立
- 每次试验中事件发生的概率是相同的
- 各次试验的事件相互之间独立
重复n次独立的伯努利试验形成二项分布(高尔顿板)
高尔顿板丨图片来源:维基百科
从最上方的节点往下,是几排交错排列的钉子。从入口扔下的小球撞上一个钉子,就像触网的乒乓球一样,弹向左边和右边的概率相等。最上方只有一种可能。下降之后,左右两边比例变成1:1,继续这个步骤,第n行的比例系数其实就是n次二项式的展开系数,或者表现为杨辉三角的第n行数值。
一般地,如果随机变量服从参数为和的二项分布,记为或。次试验中正好得到次成功的概率由概率质量函数给出
式中,,是二项式系数。不同参数下的二项分布概率分布:
如果,那么随机变量的期望为
随机变量的方差为
二项分布的近似
当时,二项分布的概率质量函数是对称的。当时,二项分布的概率质量函数呈现偏态,且与的偏斜方向相反。如果很大,即使,偏态逐渐降低,最终成正态分布。
二项分布逼近正态分布的过程丨图片来源:维基百科
1. 近似为泊松分布
如果存在有限极限,则该二项分布就趋于参数为的泊松分布
实际运用中,如果很大,但比较小(比起来说很小),通常就满足要求。一般来说,n的值越大,p的值越小,近似就越准确。因为在这种情况下,(1-p)将接近1,因此将接近分布的均值,即。这满足了泊松分布模型中均值和方差接近的条件。那么用泊松分布近似二项分布更简单些,毕竟泊松分布跟二项分布一样都是离散型分布。
2. 近似为高斯分布
如果趋于无限大(如是一个定值),则根据德莫佛-拉普拉斯(De'Moivre-Laplace)中心极限定理,这列二项分布将趋近于高斯分布(正态分布)
式中,,。
实际运用中,要求且时,一般都用高斯分布来近似计算二项分布。