python画成绩正态分布图_终于搞清楚正态分布、指数分布到底是啥了!

来源:可乐的数据分析之路 作者:可乐 99b7afc569494c51dec6de42bf7b622d.png

今天这篇文章接2个月以前的那篇文章 离散型随机变量的概率分布,继续来聊聊连续型随机变量的概率分布,以及用Python如何实现。

并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一个特定数值下的概率,而对于连续型随机变量的概率分布,我们关心的是取某一个特定范围内的概率。

首先要提到的一个概念就是:

概率密度函数

概率密度函数用来描述连续型随机变量的概率分布,用函数f(x)表示连续型随机变量,将f(x)就称为概率密度函数,概率密度并非概率,只是一种表示概率的方法,大家不要混淆,其曲线下面的面积表示概率。

概率密度函数下方的总面积为1,因为面积代表概率,而概率是必须为1。

d74ea0cbe8f6c7a9d49033909e12e0e1.png

下面是三种典型的连续型随机变量的概率分布

1. 正态分布

随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,就是正态分布,也叫做高斯分布,通常记做:

831edd5ca72719d5ad0fe36670d94d72.png

标准正态分布

正态分布是一个钟形曲线,曲线对称,中央部分的概率密度最大,越往两边,概率密度越小。μ决定了曲线的中央位置,σ决定了曲线的分散性,σ越大,曲线越平缓,σ越小,曲线越陡峭。

f11f4c4ac21320134e13435a3a0eeb73.png

如何求正态分布的概率?

正态分布的概率密度函数满足:

d5eee77b2353234ce78d7755f91e780d.png

连续型随机变量的理想模型就是正态分布,求正态分布的概率同样是求概率密度曲线下的面积,曲线的面积如何求?没关系,已经有前人栽树了,总结好了一整套的概率对应表,我们就直接乘凉就好了,其实求正态分布下的概率,是高中数学的知识点,但是如今我们完全可以借助Excel、Python这些工具也是可以直接计算出来,就没必要学习怎么去手算了。

标准正态分布的意义是,任何一个正态分布都可以通过线性变换转换为标准正态分布。

093fe2e901aa35731bbe0313ca10fba9.png

正态分布

很多实际问题都是符合正态分布的,如身高、体重等。正态分布在质量管理中也应用的非常广泛,“3σ原则”就是在正态分布的原理上建立的。


3σ原则是:

  • 数值分布在(μ—σ,μ+σ)中的概率为0.6826
  • 数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
  • 数值分布在(μ—3σ,μ+3σ)中的概率为0.9974因此可以认为,Y 的取值几乎全部集中在(μ—3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%,这是一个小概率事件,通常在一次试验中是不会发生的,一旦发生就可以认为质量出现了异常。
e99165fd6fdc3ffe3c45273764065b09.png
可以用Python里的matplotlib来画一下正态分布 scipy.stats 是 scipy 专门用于统计的函数库,所有的统计函数都位于子包 scipy.stats 中
fig,ax = plt.subplots(1,1)
loc = 1
scale = 2.0
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = norm.stats(loc,scale,moments='mvsk')
#print mean,var,skew,kurt
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(Xx = np.linspace(norm.ppf(0.01,loc,scale),norm.ppf(0.99,loc,scale),100)
ax.plot(x, norm.pdf(x,loc,scale),'b-',label = 'norm')
plt.title(u'正态分布概率密度函数')
plt.show()
结果:
667176a612a88edff0689ddeaab15c85.png

2. 均匀分布

均匀分布,也叫矩形分布,是概率密度函数在结果区间内为固定数值的分布

7bdb9bc71d50ceca4d2ff10b97758212.png 均匀分布
它的概率密度函数为:
393c28d71ebdf50686465e39e77ac681.png
均匀分布在自然情况下极为罕见,同样来画一下均匀分布
# 均匀分布
fig,ax = plt.subplots(1,1)
loc = 1
scale = 1
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = uniform.stats(loc,scale,moments='mvsk')
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(Xx = np.linspace(uniform.ppf(0.01,loc,scale),uniform.ppf(0.99,loc,scale),100)
ax.plot(x, uniform.pdf(x,loc,scale),'b-',label = 'uniform')
plt.title(u'均匀分布概率密度函数')
plt.show()
结果:
b8056c88200c3e5310b2943bd59099da.png

3. 指数分布

指数分布是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。如旅客进机场的时间间隔,还有许多电子产品的寿命分布一般服从指数分布。

c16e31e7828a87ff21b965a24d19bad1.png 指数分布
其概率密度函数为:
32a74ba2aad8197164cc1d62332b9d7b.png
指数分布具有无记忆的关键性质。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。 用Python画指数分布的概率密度函数
fig,ax = plt.subplots(1,1)
lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = expon.stats(loc,scale,moments='mvsk')
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(Xx = np.linspace(expon.ppf(0.01,loc,scale),expon.ppf(0.99,loc,scale),100)
ax.plot(x, expon.pdf(x,loc,scale),'b-',label = 'expon')
plt.title(u'指数分布概率密度函数')
plt.show()
结果:
5b8da7cd27dfbf003ef5e5a50b360744.png
1c7afc19ae3368125ecb7874e16932a8.gif

经管学苑

(ID:jingguan100) 由南开大学数量经济研究所所长王群勇教授及其学术团队主办,旨在定期与大家分享计量经济学的相关理论及软件使用技巧,覆盖经济学、管理学、社会学等学科,为广大学友提供优质学术内容。 欢迎关注 d4466ecbfce5a04f54e29f0f5c702120.png

▲长按二维码关注

点个 再看吧
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值