python画成绩正态分布图_数据分析基础(1)——神奇的正态分布

分布是用来描述事件(通常用随机变量X表示)发生规律的数学工具,比如X~N(78, 9)描述了某个考试科目考试成绩的分布情况,服从均值为78,方差为9的正态分布。我们常用直方图或概率密度曲线来展示分布特点(如下图)。#寻找真知派#

47f90ab0d4d886265bffcd23b3b336bf.png

图1 考试成绩分布图(正态分布)

事件的分布类型有很多种,比如指数分布、t分布、泊松分布等,每种分布都对应于一个概率密度函数(连续随机变量)或概率质量函数(离散随机变量)。通过这个函数,我们就可以估算某个事件发生的概率(反之亦可)。这为我们认识问题、分析问题提供了强有力的工具。

4255f20f30f486d319fc8016ce045250.png

图2 指数分布

2c007c5894b269e7982fa2dfd84530c4.png

图3 泊松分布

在所有的分布种类中,正态分布是一个很神奇的分布。大多数自然现象和社会事件都服从正态分布,比如身高、收入水平、智力水平等。正态分布的特点是分布曲线是左右对称的,极端现象发生的概率小,而通常现象的发生率高。如图1的成绩分布,大多数学生的成绩在70-85之间,极少数高分和低分。正态分布反映了“普通情况是大多数,极端情况是少数且不失偏颇(极大极小机会均等)”的客观规律。有人将其誉为“上帝创造的公平机制”。

81a0960ebe84fd930690f6dbb98d2f00.png

图4 N(μ,σ2)正态分布的概率密度函数

另外,根据中心极限定理,任何分布,随着其自由度或样本量的增大,其均值都会服从正态分布,也就是说正态分布是所有分布的终极形态。任何一种分布,通过数据变换(如对数化或Box-Cox变换),都可以转化为正态分布,然后进一步求解。在统计分析和机器学习中,正态分布起着基础性的关键作用,也就是说如果没有正态分布,就没有这些数据分析方法。

为什么会这样呢?因为正态分布最具普遍性,而且是最简洁最容易计算的分布。其中心趋势(均值、中位数、众数)均相等,且整个分布仅需指定两个参数——均值μ和方差σ2。

下面我们来看一个例子:

一个5000人的生活区,放置了45个水龙头。假如在某一时刻1个人用水的概率是1%,(1)试分析发生排队的可能性有多高?(2)至少要装多少个水龙头,才能以95%以上的概率保证不拥挤?

我们先来看第一个问题。

用水事件服从二项分布,即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5,标准差σ=7.04。 那么出现排队的概率就是

921df76e633ef2d747ad6a4ddf60e780.png

二项分布下的概率计算

但上述公式求解非常麻烦。我们可以根据德莫佛——拉普拉斯中心极限定理,将上述问题转化为正态分布N(50,49.5),予以求解。

0117ff51a362f8f0a3a270cacc1dba11.png

转化为标准正态分布,进行概率计算

所以发生排队的概率P(ζ > 45) = 1 − 0.2389 = 0.7611。用水出现拥挤是大概率事件,亟待改善。

现在我们再来看第二个问题,需要多少个水龙头才能保证95%的可能性不排队呢?即

253219da53e8c57632f5639275bae6ab.png

我们可以将上式转化为标准正态分布的形式

163aed28d29954e866496b3e81134cb8.png

于是我们得到了

0cd9865db98c64500869a9e897145e86.png

2ac1991825c072b4aa5fdf299f62e21f.png

m>=61.6,即m=62。需要再增加17个水龙头,便可保证有95%的可能性不排队。#技术技能超级玩家#

@头条号

参与评论 您还未登录,请先 登录 后发表或查看评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:游动-白 设计师:我叫白小胖 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值