老是记不住各种分布及其意义,每次用时,回查各个课本资料也很麻烦,一些分布的重要性质也是各处散布,经常找不到,故这里做个总结,当作个资料卡用。
内容有各种常见概率分布,一般会写含义、密度函数形式、期望、方差、特征函数,其它性质感觉重要就添加(有趣但感觉没什么用的不会添加)。
先介绍下在R中的使用随机数,密度函数,分布函数,分位函数的命令,使用正态分布为示例。以下不做说明均是使用 R 语言。随机数
从服从某种分布的总体中抽出样本
> rnorm(5)
[1] 0.2858567 -0.7578348 0.6322224 0.6289619 -0.6743083概率密度函数(probability density function pdf)
分布的概率密度函数值
。有时直接称密度函数。
> dnorm(0)
[1] 0.3989423
> dnorm(3.2)
[1] 0.002384088
使用这个函数就可以画出概率密度函数图,
x = seq(-5,5,by=0.01)
y = dnorm(x)
plot(x,y)累积分布函数(cumulative distribution function cdf)
含义为对pdf的积分函数
。有时直接称分布函数。
> pnorm(0)
[1] 0.5
> pnorm(1.3)
[1] 0.9031995
> pnorm(3.6)
[1] 0.9998409分位函数
cdf的反函数,从pdf理解更简单,pdf下方总的面积为1,q(0.9)表示从
到值q(0.9)处,累积概率为0.9。显然这个函数一个用处是计算否定域
> qnorm(0.5)
[1] 0
> qnorm(0.9031)
[1] 1.29942
> qnorm(0.025) #显著性水平为0.05,拒绝域(-1.95,1.95)
[1] -1.959964
用随机数理解,如果随机抽取,90%的数在
到值q(0.9)之间,
> qnorm(0.9)
[1] 1.281552
> sum(rnorm(1e5)<1.281552)/1e5
[1] 0.90048
1.退化分布;2.伯努利分布;3.Categorical 分布;4.二项分布;5.多项分布;6.中餐馆分布
7.泊松分布;8.几何分布;9.超几何分布;10.负二项分布(又称巴斯卡分布);11.正态分布;
12.均匀分布;13.指数分布;14.卡方分布;15.t分布;16.F分布;17.柯西分布;
18.Gamma分布;19.beta分布;20.对数正态分布;21.Weibull分布;22.逻辑分布;23.狄利克雷分布;
1.退化分布(degenerate distribution)
[1]基本密度函数
随机变量值只取常数
。事实上它并不随机,但把它看作随机变量的退化情况,因此称为退化分布。期望
方差
特征函数
[2]重要性质
2.伯努利分布
[1]基本
随机变量只取0或1,表示事件不发生或发生,也可以说是事件发生0次或发生1次密度函数
为随机变量,
为该分布的参数。期望
方差
特征函数
[2]重要性质
3.Categorical分布
[1]基本
伯努利分布为一次只有两种可能结果{0,1}的试验,Categorical 分布可以有多种可能{1,2,...,K}。密度函数期望
方差
特征函数
[2]重要性质
4.二项分布
[1]基本
也称为
重伯努利分布,某伯努利事件成功的概率为
,重复进行