http://www.foodmate.net/lesson/41/
第一节 二项分布的概念与特征
一、二项分布的概念
在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
考虑只有两种可能结果的随机试验,当成功的概率(π )是恒定的,且各次试验相互独立,这种试验在统计学上称为贝努里试验(Bernoulli trial)。如果进行n 次贝努里试验,取得成功次数为X (X =0,1,…,n )的概率可用下面的二项分布概率公式来描述:
(7.1)
式中的n 为独立的贝努里试验次数,π 为成功的概率,(1-π )为失败的概率,X 为在n 次贝努里试验中出现成功的次数, 表示在n 次试验中出现X 的各种组合情况,在此称为二项系数(binomial coefficient)。
所以 的含义为:含量为n 的样本中,恰好有 例阳性数的概率。
含量为n 的样本中,发生各种阳性数的概率正好为下列二项式展开的各项
(7.2)
式中,π为总体阳性率;n 为样本含量;X 为阳性数;(n X)为组合数,即二项式展开后各项的系数。
二、二项分布的应用条件
1.各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料。
2.已知发生某一结果(阳性)的概率为π ,其对立结果的概率为1-π ,实际工作中要求π 是从大量观察中获得比较稳定的数值。
3.n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。
三、二项分布的性质
1.二项分布的均数和标准差在二项分布资料中,当π 和n 已知时,它的均数μ 及其标准差σ 可由式(7.3)和(7.4)算出。
μ =nπ (7.3)
σ = (7.4)
若均数和标准差不用绝对数表示,而是用率表示时,即对式(7.3)和(7.4)分别除以n ,得
μp =π (7.5)
σp = (7.6)
σp 是样本率的标准误的理论值,当π 未知时,常用样本率p 作为π 的估计值,式(7.6)变为:
sp = (7.7)
2.二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计两种方法。从阳性率为π 的总体中随机抽取含量为n 的样本,则
(1)最多有k 例阳性的概率
(7.8)
(2)最少有k 例阳性的概率
(7.9)
其中,X =0,1,2,…,k ,…,n 。
3.二项分布的图形已知π 和n ,就能按公式计算X =0,1,…,n 时的P (X )值。以X 为横坐标,以P (X )为纵坐标作图,即可绘出二项分布的图形,如图7.1,给出了p =0.5和 p =0.3时不同n 值对应的二项分布图。
二项分布的形状取决于π 和n 的大小,高峰在m =n p 处。当p 接近0.5时,图形是对称的;p 离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。当n →∞ 时,只要p 不太靠近0或1,特别是当nP 和n (1-P )都大于5时,二项分布近似于正态分布。
π =0.5时,不同n 值对应的二项分布
π=0.3时, 不同n 值对应的二项分布
图7.1二项分布示意