R语言:常见的分布

定義 :離散型隨機 變數 (Discrete Random Variable)
– 離散型隨機變數為計數值的隨機變數。
– 例:生產線上某次抽檢之不良品的數目
2)  定義 :連續型隨機 變數 (Continuous Random Variable)
– 連續型隨機變數為連續值的隨機變數。
– 例:厚度、重量與長度

 

离散分布: 

二项分布

伯努利实验

介绍二项分布前,先了解一下伯努利实验。 
比如一个鸡蛋是否能成功孵出小鸡,扔硬币,进入商店的人是否购买了东西,一个正在生产的产妇是生男生女,这些都是伯努利实验。它满足以下条件:1、每次只可能有两种结果,每次成功概率都为p;2、两次实验之间互不影响。 
和伯努利实验最常见的问题就是:如果进行n次伯努利实验,每次成功概率为p,那么成功k次的概率是多少?这个概率分布就是二项分布。

R语言应用

P(x) = choose(n,x) * p^x * (1-p)^(n-x)                x=0,1,2,3……n
E(X)=np; Var(x)=np(1-p) 

产生随机样本: 
rbinom(x, size, prob)  
#prob为成功的概率 
#size=1即为伯努利试验 

密度函数: 
dbinom(x, size, prob):x发生的概率 P(x)

分布函数:
pbinom(q, size, prob):≤q 的事件累积概率 F(q)

分位数函数:
qbinom(p, size, prob):累积概率p对应的q 

#x、q为实验结果;p为累积概率。

已知某批鸡蛋的孵出率prob为0.9,抽取5个鸡蛋检查其孵化情况,这5个鸡蛋孵出1、2、3、4、5、6个小鸡的概率分别是多少?

dbinom(1,5,0.9)//0.00045
dbinom(2,5,0.9)//0.0081
dbinom(3,5,0.9)//0.0729
dbinom(4,5,0.9)//0.32805
dbinom(5,5,0.9)//0.59049

电视台的某个节目,官方预估收视率为25%,当我们电话访问了1500人之后,发现收看率只有23%。官方预估的数据准确吗?

//进行二项分布检验
binom.test(1500*0.23,1500,0.25,alternative = "less")//输出p值为0.03837,小于0.05,可以确认假设成立,官方数据有水分。

//换一种方式,计算1500个样本中出现23%收视率的概率,概率太小就可以此否定官方的数据。
pbinom(1500*0.23,1500,0.25)//出现这种情况的概率是0.03836649,这么小概率的事件被我们碰到了,明显不可能,那

参考文档: 

https://my.oschina.net/explore/blog/85477

https://blog.csdn.net/a345017062/article/details/52607219 

超几何分布

二项分布中,每次实验互相独立。如果互相有影响,那就会出现超几何分布。

从装有n个白球和m个黑球的罐子里,取k个球,其中白球的个数符合超几何分布。

f(x) = choose(n, x) choose(m, k-x) / choose(m+n, k) 
E(x)=k*n/(m+n) 
Var(x)=(k*n/(m+n)) * (n+m-k)/(n+m-1)) * (1-n/(n+m)) 
#前几个分布都是在试验之间相互独立的基础上得来的,而超几何分布中,前一次试验会对后一次试验产生影响。 
#当n+m→∞,则超几何分布近似于二项分布。 

产生随机样本: 
rhyper(nn, m, n, k) 
#nn为实验次数,m为白球个数,n为黑球个数,k为每次实验取出小球个数。 
 
dhyper(x, m, n, k) 
phyper(q, m, n, k) 

qhyper(p, m, n, k)

假设有一批500件的产品,次品有5个,即次品率1%,质检人员随机抽取20个进行检查。 
如果采取放回抽取,那就是做20次伯努利实验,每次实验的成功概率为1%,抽取到不合格产品的概率满足二项分布。如果采取不放回抽取,抽取到不合格产品的概率就满足超几何分布。

R语言应用

//放回抽取,抽取到1,2,3,4,5件次品的概率
dbinom(c(1,2,3,4,5),20,0.01)
//输出结果为:1.652337e-01 1.585576e-02 9.609552e-04 4.125313e-05 1.333434e-06

//不放回抽取,抽取到1,2,3,4,5件次品的概率
dhyper(c(1,2,3,4,5),5,495,20)
//输出结果为:1.697266e-01 1.338094e-02 4.986684e-04 8.757606e-06 5.778215e-08

假设我们把样子和总体的差距无限放大,是否放回对抽取结果的影响越来越小,两种情况下的概率会趋于接近

dhyper(c(1,2,3,4,5),5,500000000,20)
//2.000000e-07 1.520000e-14 5.471999e-22 9.302399e-30 5.953536e-38
dbinom(c(1,2,3,4,5),20,0.00000001)
//2.000000e-07 1.900000e-14 1.140000e-21 4.844999e-29 1.550400e-36

泊松分布:

某一特定时间或面积内稀有事件发生之机率。 

p(x) = λ^x * exp(-λ)/factorial(x) 

λ某一特定时间(面积)内发生的平均数


E(x)=Var(x)=λ 

产生随机样本: 
rpois(n, λ) 

密度函数: 
dpois(x, λ) 
ppois(q, λ) 
qpois(p, λ) 

 

负二项分布 


伯努利试验独立、重复进行,成功的概率为p,直到出现r次成功。则试验失败的次数符合负二项分布。

掷骰子,掷到一即视为成功。则每次掷骰的成功率是1/6。要掷出三次一,所需的掷骰次数属于集合 { 3, 4, 5, 6, ... } 。掷到三次一的掷骰次数是负二项分布的随机变量。 
p(x,r,p)=choose(x+r-1, r-1) * p^r * (1-p)^x 
E(X)=r(1-p)/p; Var(x)= r(1-p)/(p^2) 

产生随机样本: 
rnbinom(n, size, prob) 
#连续抛硬币,出现5次正面为一次实验,做1000次实验。则n=1000,size=5。 
#prob为成功的概率 
#r=1即为几何分布 

密度函数: 
dnbinom(x, size, prob) 
pnbinom(q, size, prob) 

qnbinom(p, size, prob)

 

几何分布

n次伯努利试验,前n-1次皆失败,第n次才成功的机率.

dgeom(n,prob)

 

多项分布

上面提到的伯努利实验每次结果有两种可能性,如果实验结果有多种可能性,实验结果就满足多项分布。这里举一些应用例子

1、某种化妆品在市场上共有4个品牌,我们从以往的销售数据可以知道它们的市场占有率分别为:10%,20%,50%,20%。可以近似认为消费者只买自己最喜欢的品牌。在商场中随机挑选10个消费者做调研,让每个人从这4个品牌中选一个自己最喜欢的品牌。那么选取各品牌的人数分别为1,2,4,3的概率有多大? 

说明:10次实验,每次4个选项,概率分别为:0.1,0.2,0.5,0.2。 
2、掷骰子时,一次掷出豹子的概率有多大? 
只要3个点数相同,就是豹子,一共有6种豹子,且每种出现概率相同。每种骰子掷出6个点的概率相同。 
说明:一次掷骰子相当于3次实验,每次实验有6种结果,概率都是1/6。

R应用

//品牌选择的概率计算
dmultinom(c(1,2,4,3),prob=c(0.1,0.2,0.5,0.2));//0.0252

//掷骰子掷出豹子的概率计算
p1=dmultinom(c(3,0,0,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p2=dmultinom(c(0,3,0,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p3=dmultinom(c(0,0,3,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值