一、二项总体及二项式分布
试验或调查中最常见的一类随机变数是整个总体的各组或单位可以根据某种性状的出现与否而分为两组。如:小麦种子发芽和不发芽,大豆种子叶色为黄色和青色。这类变数均属间断性随机变数,其总体中包含两项,即:非此即彼的两项,它们构成的总体称为二项总体(binary population)。
为便于研究,通常将二项总体中的“此”事件以变量“1”表示,概率p,“彼”,以“0”表示,具概率q。二项总体又称0,1总体:p+q=1 或 p=1-q
如果从二项总体抽取n个个体,可能得到y个个体属于“此”,属于“彼”的个体为n-y。由于是随机独立地从总体中抽取个体的,每一次抽取的个体有可能属于“此”,也可能属于“彼”,得到y个“此”个体的数目可能为0,1,2,...,n个。此处将y作为间断性资料的变量,y共有n+1种取值,这n+1种取值各有其概率,因而由变量及其概率就构成一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布(binomial distribution)。将完全事件系的总概率1分布到各个事件,就是所谓的概率分布。
二、二项式分布的概率计算方法
每一复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;这一复合事件的可能组合数目则相当于从n个物体中任取其y个物体的组合数,组合公式为:
二项式中包含两项,这两项概率为p、q,并且 ,变量y的概率函数为:
这一分布律也称贝努里(Bernoulli)分布,
随机变数i,变量y相应概率函数
累计函数
理论次数 N:抽取的次数
三、二项式分布的形状和参数
若p=q,二项分布呈对称形状,,偏斜形状。
从理论和实践检验,当n很大时即使 ,它也接近对称形状。这一理论分布由n和p两个参数决定。
从总体中可以抽取的所有样本均有一个y,这样所有的y构成了一个新总体,该总体也属于二项式总体:
, , 指从二项总体抽出n个个体的样本总和数(个数)分布的平均数和标准差。
若n适当大,大于30,p值又不过于小,不靠近零值,并且np及nq均不少于5时,二项式分布趋近于正态分布。
四、多项式分布
若总体内包含几种特性或分类标志,可将总体中的个体分为几类,如在给某一人群使用一种新药,可能有的疗效好,有的没疗效 ,另有疗效有副作用,像这种变数资料分为3类或多类的总体称为多项总体,研究其随机变量的概率分布可使用多项分布(multinomial distribution)。
设总体中共包含有k项事件,其概率分别为,。
从这种总体随机抽取n个个体,可得到k项的个数分别为,
一个事件的概率理论上为:
这是多项式展开式中任意项(k项)的概率函数,这一概率分布称为多项式分布。
如果是三项式的概率分布,
五、泊松分布——二项分布的一种极限分布
二项分布,往往遇到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样以上二项分布必将为另一种分布所接近,或者为一种极限分布。这一种分布称泊松概率分布,简称泊松分布(Possion distribution)。
若np=m ,则接近分布如下:
凡在观察次数n(n相当大)中,某一事件出现的平均次数m(m是一个定值)很小,那么,这一事件出现的次数将符合泊松分布。
, ,
m很小,分布呈偏平状;m很大,分布趋近于正态
泊松分布特性,两个或以上的泊松分布之和,仍为泊松分布,2个及以上事件各独立地服从泊松分布时,可将其合并,并求其平均数与标准差。