1. 伯努利分布(Bernoulli distribution)
伯努利分布又称二点分布或0-1分布,即一次试验只有正例和反例两种可能,以随机变量表示就是X只能取0或1,伯努利试验是只有两种可能结果的单次随机试验,假设一次试验出现正例的概率为p(0<p<1),那么
P(X=1)=p
,
P(X=0)=1−p
,可以统一表达为
P(X=k)=pk(1−p)1−k,k=0,1
,则称X服从参数为p的伯努利分布,记为
X∼Ber(p)
最简单的伯努利试验就是抛硬币,抛一次硬币,正反面出现的概率均为0.5,出现正面的分布是服从参数为0.5的伯努利分布。
2. 二项分布(binomial distribution)
将伯努利试验独立地重复n次称为n重伯努利试验,独立是指每次试验结果互相不影响,二项分布是n重伯努利试验中正例发生次数的离散概率分布,也就是说,抛n次硬币,出现正面的次数的概率分布。
记每次伯努利试验正例发生的概率为p,总共试验次数为n,随机变量X表示出现正例的次数,则记
X∼B(n,p)
表示X服从参数为(n,p)的二项分布,观测变量
x∈[0,n]
,
x
取k的概率,即在n次伯努利试验中,正例出现k次的概率为
其中
Ckn=n!k!(n−k)!
为二项系数。二项分布具有期望
E[X]=np
和方差
D[X]=np(1−p)
,详情请参考wikipedia binomial distribution.
此处举一个从二项分布采样的例子,python的numpy库中有二项分布的生成器,其三个参数分别为试验次数、正例概率和采样个数,如下:
import numpy
a = numpy.random.binomial(n=10, p=0.7, size = 1)
生成a为0-10的整数,如果令参数size=10000,则生成a为大小为10000的数组,每个元素取0-10的整数,画出a的分布图如下,可见正例出现7次的样本数最多,并以7为中心向两侧递减。
3. 多项分布(multinomial distribution)
多项分布是对二项分布的扩展,二项分布是单变量分布,而多项分布是多变量分布。二项分布的典型例子是抛硬币,每次试验有正反两种对立的可能,多项分布的例子是扔骰子,每次试验有多种可能,进行多次试验,多项分布描述的是每种可能发生次数的联合概率分布。
在单次试验中,假设一共有k种可能情况,记这k种可能发生的概率为
μ=[μ1,...,μk]
,并且
∑ki=1μi=1
,记
x=[x1,...,xk]
,其中
xi∈{0,1}
,并且
∑ki=1xi=1
,即
xi
中只有一个为1,其他均为0,也就是每次试验只有一种可能发生,
xi
取1的概率为
μi
,那么,
x
的概率为
P(x|μ)=∏ki=1μxii
将试验进行N次,记第i种可能发生的次数为
mi
,
∑ki=1mi=N
,那么多项分布表示
mi
的联合概率分布
P(m1,...,mk|N,μ)=Multi(m1,...,mk|N,μ)=N!m1!⋯mk!∏di=1μmii
多项分布的统计量如下:
E[mi]=Nμi
var(mi)=Nμi(1−μi)
cov(mi,mj)=−Nμiμj,(i≠j)
详情请参考wikipedia multinomial distribution.
下面举一个从多项分布采样的例子,python的numpy库中有多项分布的生成器,其三个参数分别为试验次数、每种可能发生的概率向量和采样次数,如下:
import numpy
a = numpy.random.multinomial(n=10, pvals=[0.2,0.4,0.4], size = 1)
生成a为一个三维向量,如[2,7,1],向量的每个元素位于0-10之间,三个元素之和为10。设置size = 1000,就会得到1000个三维向量,这1000个向量的均值为[2.013,4.058,3.929],可见其均值的分布趋近于概率[0.2,0.4,0.4].