Distribution of Discrete Random Variables

离散型随机变量分布:伯努利分布;二项分布;泊松分布;多项分布。

0、基本概念

  • 概率质量函数 pmf Probability mass function
    概率质量函数是离散随机变量在各特定取值上的概率。图片如下:
    wiki
    横坐标是离散型随机变量的取值,纵坐标是每个取值的概率(纵坐标一定是非负的,并且和是1)

对于连续性随机变量,使用的是概率密度函数(PDF)


  • 累积分布函数 CDF Cumulative distribution function
    累积分布函数能完整描述一个实随机变量X的累积概率分布,同样适用于离散型和连续型随机变量。
    在这里插入图片描述
    上图是正态分布的累积分布函数。

对于连续性随机变量,亦是如此



1、伯努利分布 Bernoulli distribution

伯努利分布又称"零一分布",“两点分布”。伯努利分布只做一次实验,只有两种结果,1:成功;0:失败;则伯努利分布为:

P ( X ) = { p , X = 1 1 − p , X = 0 P(X)= \begin{cases} p , & X=1 \\ 1-p, & X=0 \end{cases} P(X)={p,1p,X=1X=0

此时称随机变量X服从参数为 p p p的伯努利分布,那么
期望值:
E ( X ) = 1 ∗ p + 0 ∗ ( 1 − p ) = p E(X)=1*p + 0 *(1-p) = p E(X)=1p+0(1p)=p
E ( X 2 ) = 1 2 ∗ p + 0 2 ∗ ( 1 − p ) = p E(X^2)=1^2*p + 0^2 *(1-p) = p E(X2)=12p+02(1p)=p
方差:
V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = p 2 − p = p ( 1 − p ) Var(X)=E(X^2)-[E(X)]^2=p^2-p=p(1-p) Var(X)=E(X2)[E(X)]2=p2p=p(1p)



2、二项分布 Binomial distribution

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。

二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:
B ( n , p ) = C n k   p k ( 1 − p ) n − k = n ! ( n − k ) ! k !   p k ( 1 − p ) n − k B(n,p)=C_n^k\ p^k(1-p)^{n-k}=\frac{n!}{(n-k)!k!} \ p^k(1-p)^{n-k} B(n,p)=Cnk pk(1p)nk=(nk)!k!n! pk(1p)nk

如果随机变量 X X X服从二项分布,即: X ∼ B ( n , p ) X \sim B(n, p) XB(n,p),那么他的期望值和方差分别是:

期望值:
E ( X ) = n p E(X)=np E(X)=np
方差:
V a r ( X ) = n p ( 1 − p ) Var(X)=np(1-p) Var(X)=np(1p)

计算证明公式详见wiki

下图左图二项分布的概率质量函数pmf,右图是累积分布函数CDF
在这里插入图片描述在这里插入图片描述

关系一:伯努利分布和二项分布的关系

  1. 相同点:二项分布和伯努利分布的每次试验都只有两个可能的结果
  2. 二项分布 B ( n , p ) B(n,p) B(n,p) n = 1 n=1 n=1 的时候,就是伯努利分布



3、泊松分布 Poisson distribution

大量事件的发生是有固定频率的,泊松分布描述某段时间内,随机事件的发生频率。泊松分布的概率分布函数公式如下:
P ( k   e v e n t   i n   i n t e r v a l ) = P ( N ( t ) = k ) = e − λ λ k k ! k = 1 , 2... P(k\ event\ in\ interval)=P\Big(N\left(t\right)=k\Big)=e^{-\lambda} \frac{\lambda^k}{k!} \quad k=1,2... P(k event in interval)=P(N(t)=k)=eλk!λkk=1,2...

等号左边 P P P表示概率, N N N表示某种函数关系, t t t表示时间, k k k表示数量,λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

举例说明:要计算1小时内出生3个婴儿的概率,等号左边为 P ( N ( 1 ) = 3 ) P\Big(N(1)=3\Big) P(N(1)=3) ,等号的右边λ表示事件的频率(如平均每小时出生5个婴儿)。

泊松分布的期望值:
E ( X ) = λ E(X)=\lambda E(X)=λ
方差:
V a r ( X ) = λ Var(X)=\lambda Var(X)=λ

下图左右分别为泊松分布的概率质量函数pmf、累积分布函数CDF(λ表示事件的频率)
在这里插入图片描述在这里插入图片描述
泊松分布的主要特点:

泊松分布的主要特点:

1、泊松分布是个计数过程,通常用于模拟一个非连续事件在连续时间中的发生次数

2、任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立)

3、经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率

4、时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零

参考原文:https://blog.csdn.net/qq_38984677/article/details/81110450


关系二:泊松分布和二项分布的关系:
  当二项分布满足以下三个条件时候,泊松分布就是二项分布的极限形式:
     (1). n→∞;(2). p→0;(3). np=λ
证明如下:
lim ⁡ n → ∞ , p → 0 C n k p k ( 1 − p ) n − k = lim ⁡ n → ∞ , p → 0 n ( n − 1 ) ⋯ ( n − 1 + k ) k ! p k ( 1 − p ) n − k = lim ⁡ n → ∞ , p → 0 n k k ! p k ( 1 − p ) λ p − k = lim ⁡ n → ∞ , p → 0 λ k k ! [ ( 1 − p ) 1 − p ] − λ 1 ( 1 − p ) k = lim ⁡ n → ∞ , p → 0 λ k k ! e − λ \begin{aligned} \lim \limits_{n\rightarrow\infty, p\rightarrow0} C_n ^ {k}p ^ k(1-p)^{n-k} & = \lim \limits_{n\rightarrow\infty, p\rightarrow0} \frac{n(n-1)\cdots(n-1+k)}{k!}p^k(1-p)^{n-k} \\ & = \lim \limits_{n\rightarrow\infty, p\rightarrow0} \frac{n^k}{k!}p ^{k}(1-p) ^{\frac{\lambda}{p}-k} \\ & = \lim \limits_{n\rightarrow\infty, p\rightarrow0} \frac{\lambda^k}{k!}[(1-p) ^{\frac{1}{-p}}] ^{-\lambda}\frac{1}{(1-p) ^{k}} \\ & = \lim \limits_{n\rightarrow\infty, p\rightarrow0} \frac{\lambda^k}{k!}e ^{-\lambda} \end{aligned} n,p0limCnkpk(1p)nk=n,p0limk!n(n1)(n1+k)pk(1p)nk=n,p0limk!nkpk(1p)pλk=n,p0limk!λk[(1p)p1]λ(1p)k1=n,p0limk!λkeλ



4、多项式分布 Multinomial distribution


多项式分布是二项式分布的推广,二项式的典型例子是扔硬币,多项式是扔骰子,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应 p 1   p 6 p_1~p_6 p1 p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次。

如果问有x次都是点数6朝上的概率就是: C n x p 6 x ( 1 − p 6 ) n − x C_n^xp_6^x(1-p_6)^{n-x} Cnxp6x(1p6)nx

更一般性的会问:点数1~6的出现次数分别为 ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) (x_1,x_2,x_3,x_4,x_5,x_6) (x1,x2,x3,x4,x5,x6)时的概率是多少?其中 s u m ( x 1 ∼ x 6 ) = n sum(x_1\sim x_6)= n sum(x1x6)=n。这就是一个多项式分布问题。那么他的质量分布函数是:
在这里插入图片描述
这个公式是如何得来的,可以参考这篇文章:
https://blog.csdn.net/apache_xiaochao/article/details/30535521

其实如果另 k = 2 k=2 k=2,那么就是二项分布的公式,这样很容易,推广到多项是这个公式也就不难理解了。

x i x_i xi为第 i i i 种状态输出结果的频度,根据多项分布的极大似然估计得:
p i ^ = x i n \hat{p_i}=\frac{x_i}{n} pi^=nxi


多项分布的期望值:
E { X i } = n p i E\{X_i\}=np_i E{Xi}=npi
方差:
V a r { X i } = n p i ( 1 − p i ) Var\{X_i\}=np_i(1-p_i) Var{Xi}=npi(1pi)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值