1.常见离散分布有四种:二项分布、泊松分布、超几何分布和几何分布
2.常见连续分布有五种:正态分布、均匀分布、指数分布、伽玛分布和贝塔分布
3.三大抽样分布为:卡方分布、F分布和t分布
4.泊松分布的参数λ是单位时间或单位面积内随机事件的平均发生次数
5.指数分布的参数λ表示同一事件发生的平均时间间隔,它与泊松分布是相对的
6.当n<<N时,超几何分布可近似二项分布;二项分布的极限可近似泊松分布
7.几何分布与指数分布都具备无记忆性
8.泊松分布的应用场景有一天里内商场到店顾客数;单位面积上玻璃上的气泡数等
9.几何分布应用场景有首次抽查到不合格品;首次命中靶心等
10.指数分布被用作各种"寿命"分布,比如通话时长,服务时间,电灯寿命等
11.贝塔分布应用场景有不合格品率、机器的维修率、市场的占有率等
12.二项分布主要应用在一个事件是否为真上,比如风控上好人坏人的概率
概率论中,随机变量分为离散变量和连续变量,对应的分布称为离散分布和连续分布,本文我们介绍常用的两类分布以及用编程如何实现,常见的离散分布有:二项分布、泊松分布、超几何分布和几何分布四种;常见的连续分布有正态分布、均匀分布、指数分布、伽玛分布和贝塔分布五种。除此之外,我们也介绍三大抽样分布:卡方分布、F分布和t分布
1.二项分布
记X为n重伯努利试验中成功(记为事件A)的次数,则X的可能取值为0,1.…,n.记p为每次试验中A发生的概率,即P(A)=p,则这个分布称为二项分布,记为X~b(n,p)
特别地,如果n=1,则二项分布退化为0-1分布(伯努利分布),也称二点分布,记为X~b(1,p)
二项分布X~b(n,p)的期望是np,方差为np(1-p)
利用python的模块scipy可以实现二项分布:
from scipy.stats import binom
#第一个参数表示成功次数k,
#第二个参数是伯努利试验次数n,
#第三个参数是每次试验成功概率p
binom.pmf(5,10,0.5) #概率密度
binom.cdf(5,10,0.5) #累计概率
我们画出n=10,p依次取0.2,0.5,0.8的分布图:
n = 10 #试验次数
m = 0
fig = plt.figure(figsize=(20,6))
for p in [0.2,0.5,0.8]:
m += 1
X = np.arange(0, n+1, 1)
p_list = binom.pmf(X,n,p)
fig.add_subplot(1,3,m)
plt.plot(X, p_list, linestyle='None', marker='o',color='#DAA520')
plt.vlines(X, 0, p_list,color='#DAA520')
plt.xlabel('随机变量X:成功次数k')
plt.ylabel('Probability')
plt.title('二项分布X~b({},{})'.format(n,p))
位于均值p附近概率较大.
随着p的增加,分布的峰逐渐右移.
2.泊松分布
泊松分布的概率分布列是:
记X~P(λ)
其中,参数λ是单位时间或单位面积内随机事件的平均发生次数。一些常见的场景都服从泊松分布:
在一天内,来到某商场的顾客数
在单位时间内,一电路受到外界电磁波的冲击次数
1平方米内,玻璃上的气泡数
一铸件上的砂眼数
在一定时期内,某种放射性物质放射出来的α-粒子数
泊松分布具备三个性质:
平稳性: 在一段时间T内,事件发生的概率相同
独立性: 事件的发生彼此独立,没有关联或关联很弱
普通性: 将T划分为无限个小的ΔT, 在每个ΔT内,事件发生多次的概率几乎为0
泊松分布X~P(λ)的期望和方差均是λ
利用python的模块scipy可以实现泊松分布:
from scipy.stats import poisson
lam = 5 #泊松分布的参数λ
poisson.pmf(3,lam) #随机变量取值为k时的概率
poisson.cdf(7,lam) #累计概率
假设某路口一天发生的事故次数服从泊松分布,我们画出不用参数下的分布图:
m = 0
fig = plt.figure(figsize=(20,6))
for lam in [0.8,2,4]:
m += 1
X = np.arange(0, 11, 1)
p_list = poisson.pmf(X,lam)
fig.add_s