概率统计(三)常见分布与假设检验

一、一般随机变量

根据随机变量可能取值的个数分为离散型和连续型两类。

  • 离散型随机变量
    对于离散型随机变量,使用概率质量函数(PMF)来描述其分布规律。
    用到PMF的分布:二项分布、泊松分布
  • 连续型随机变量
    对于连续型随机变量,使用概率密度函数(PDF)来描述其分布情况。
    用到PDF的分布:均匀分布、正态分布、指数分布
    连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率都是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念
    假定连续型随机变量X,f(x)为概率密度函数,对于任意实数范围如[a, b],有
    P ( X ) = ∫ a b f ( x ) d x , a < = X < = b P(X) = \int_a^b f(x)dx, {a <= X <= b} P(X)=abf(x)dx,a<=X<=b
    对于连续型随机变量,通常还会用到累积分布函数(CDF)来描述其性质,在数学上CDF是PDF的积分形式。
    分布函数F(x)在点x处的函数值表示X落在区间(-∞, x]内的 概率,所以分布函数就是定义域为R的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。

二、常见分布

在之前的文章中有介绍过数据的分布:概率统计(一)随机事件与随机变量
这里对之前未做介绍的内容做一个补充

1.离散型分布

(1)二项分布

  • 二项分布需要满足以下条件:
    (1)试验次数是固定的
    (2)每次试验都是独立的
    (3)对于每次试验成功的概率都是一样的

(2)泊松分布

  • 泊松分布需要满足的条件:
    (1)试验次数n趋向于无穷大
    (2)单次事件发生的概率p趋向于0
    (3)np是一个有限的数值

  • 二项分布,泊松分布,正态分布的关系
    当n很大,p很小时,如n >= 100 and np <= 10,二项分布可近似为泊松分布
    当λ很大时,如λ >= 1000时,泊松分布可近似为正态分布
    当n很大时,np和n(1-p)都足够大时,如n >= 100 and np >= 10 and n(1-np) >= 10时,二项分布可近似为正态分布

(3)几何分布

  • 定义
    考虑独立重复试验,几何分布描述的是经过k次试验才首次获得成功的概率,假定每次成功率为p,那么
    P{X = n} = (1 - p)n-1p
  • 特性
    它的一个重要性质是无记忆性
  • 举例
    举个栗子,求婚101次,求婚成功的概率为0.5,第101次才被接受的概率,则
    P(求婚101次获得成功)=(1-0.5)100 * 0.5
    几何分布的期望是E(x)=1/p,具体含义为,如果你每次求婚成功的概率为0.5,那么你可以期望自己求婚2次就获得成功

(4)负二项分布

  • 定义
    考虑独立重复试验,负二项分布描述的是试验一直进行到成功r次的概率,假定每次成功率为p,那么
    在这里插入图片描述

  • 应用
    在实际的生活中,负二项分布可以应用到很多场景。一个人在获得r次满分前,没有获得满分的次数;一台机器在坏掉之前,可以使用的天数等等。

(5)超几何分布

如果样本容量n=1,即从有限总体中只抽取一个个案,且恰好抽到符合要求个案的概率,那么超几何分布可以还原成二项分布。

如果数据总体的容量N无穷大,也就是将有限总体换成无限总体,此时抽中的个案放回与不放回对于总体中符合要求的个案比例都没有影响,超几何分布也可视为二项分布。

在实际应用时,只要数据总体的个案数目是样本容量的10倍以上,即N > 10n,就可用二项分布近似描述超几何分布,通过两种概率质量函数计算得到的概率几乎相同。

2.连续型分布

(1)均匀分布

均匀分布指的是一类在定义域内概率密度函数处处相等的统计分布

(2)正态分布

  • 定义
    正态分布只依赖于数据集的两个特征:样本的均值和方差:
    均值——样本所有取值的平均
    方差——该指标衡量了样本总体偏离均值的程度

正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测,大自然中发现的变量,大多近似服从正态分布。
正态分布很容易解释,这是因为正态分布的均值,模和中位数是相等的,且我们只需要用均值和标准差就能解释整个分布。

(3)指数分布

指数分布通常被广泛用在描述一个特定事件发生所需要的事件,在指数分布随机变量的分布中,有着很少的大树值和非常多的小数值。
指数分布是无记忆的,假定在等候事件发生的过程中已经过了一些事件,此时距离下一次事件发生的时间间隔的分布情况和最开始是完全一样的,不会对结果有任何影响。

(4)Γ分布

通常用来描述某个事件总共要发生n次的等待时间的分布。
Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。
指数分布是伽马分布α = 1的特殊情况
在这里插入图片描述

(5)威布尔分布(Weibull)

常用来描述在工程领域中某类具有最弱链对象的寿命。
在这里插入图片描述

3.常见分布的均值和方差汇总

离散型分布:
在这里插入图片描述
连续型分布:
在这里插入图片描述
以及对各个分布做了一个对比汇总:
在这里插入图片描述

4.Python代码实战

(1)生成一组符合特定分布的随机数

import numpy as np
#生成大小为1000的符合b(10,0.5)二项分布的样本集
s_b = np.random.binomial(n=10,p=0.5,size=1000)
print(s_b)
#生成大小为1000的符合P(1)泊松分布的样本集
s_p = np.random.poisson(lam=1,size=1000)
print(s_p)
#生成大小为1000的符合U(0,1)均匀分布的样本集,注意在此方法中边界值为左闭右开区间
s_u = np.random.uniform(low=0,high=1,size=1000)
print(s_u)
#生成大小为1000的符合N(0,1)正态分布的样本集,可以用normal函数自定义均值、标准差,也可以直接使用standard_normal函数
s_n1 = np.random.normal(loc=0,scale=1,size=1000)
print(s_n1)
s_n2 = np.random.standard_normal(size=1000)
print(s_n2)
#生成大小为1000的符合E(1/2)指数分布的样本集,注意该方法中的参数为指数分布参数λ的倒数
s_e = np.random.exponential(scale=2,size=1000)
print(s_e)

(2)计算统计分布的PMF和PDF

from scipy import stats
import numpy as np
#计算二项分布B(10,0.5)的PMF
x_b = range(11)
p_b = stats.binom.pmf(x_b,n=10,p=0.5)
print(p_b)
#计算泊松分布P(1)的PMF
x_p = range(11)
p_p = stats.poisson.pmf(x_p,mu=1)
#计算均匀分布U(0,1)的PDF
x_u = np.linspace(0,1,100
  • 14
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值