用一维数组统计五个人的成绩中的最大值最小值平均值_推论统计学基础知识

一、前言

先看一下“MBA智库”上对推论统计学的解释。

推论统计学是指在统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。

简单讲个例子,一个班级有50人参加了考试,可由于某些原因大部分数据丢失,只剩下了20人的考试成绩。那是否可以通过计算这20人的及格率来推断50人的及格率呢?

答案是肯定的。但这里有个前提,就是这20人的成绩必须是随机分布的,不能是某一区间段的成绩。也就是说这20个人不能全都是不及格的,而是要有高有低随机分布的。

b1385d8dd16a1e250fcdc3995f71a182.png

二、随机事件与随机变量

在推论统计学中,在一定条件下一个事件可能发生或不发生的情况下称之为随机事件。比如上述举得例子中,一个学生是否及格就是一个随机事件。而这个事件的结果{及格,不及格}就是随机变量。一般对于这类只有两个结果的事件,可以用数字0和1来表达。

5963b4d96807564d0a66cf8386b5e646.png

随机变量根据数据类型的不同又分为离散随机变量连续随机变量

同样拿学生考试这件事来讲,考试是否及格的结果就是离散随机变量,要么及格要么不及格,结果都是整数;而考试及格率就是连续随机变量,可以无限细分下去,一般是浮点数。

三、概率分布

若我们将随机事件发生的结果(即随机变量)都统计下来,就可以清楚地算出每个结果发生的概率是多少。而概率分布就指的每个随机变量的发生概率的分布情况,所有随机变量的发生概率之和是1。

比如20人里,及格人数是7人个人,则及格的概率 = 及格人数7 / 总人数20 = 35%;不及格的概率就是1 - 35% = 65%。

随机变量有离散随机变量和连续随机变量,同样地根据随机变量的不同,概率分布也为分离散型分布和连续型分布。

5d915d36d9cba56a60aa6635a9b9fc65.png

1.离散型分布

①伯努利分布

伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。

伯努利试验就是一种简单地“非黑即白”的试验,没有折中的余地。比如学生考试要么及格要么不及格,或者是投硬币要么正面要么反面。单次的伯努利试验是没有太大意义的,只有多次反复试验,去观察发生和不发生各自的概率才能发现意义。

代码实现及绘图:

#第一步:创建数据集

1be6b9305c2a99e00d385466e729252b.png
#第二步:计算概率分布

5486790149dcceb67e97526309a3e486.png
#第三步:绘制图形

e2e75a200312aaa4c4f8169ada409e18.png

②二项分布

在n次独立重复的伯努利试验中,发生k次事件的概率。

用抛硬币的例子来解释上面这段话。假设一次伯努利试验(抛硬币),它的结果只有正和反两个值。连续抛了3次硬币,其中出现2次正面朝上的概率是多少?先用最简单粗暴的方法计算一下这个问题,就是数数儿。

8037174abd15b4541583cecc8c4f7586.png

首先,抛3次硬币一共会出现8种情况,而这其中出现2次正面朝上的情况为3次,那么概率就等于 3 / 8 = 0.375,也就是37.5%。简单情况下可以这么算,但数字一大,比如抛100次硬币出现25次的概率是多少,那就一下子数不清了,所以就要用公式进行计算。

二项分布公式:

乍一看有点懵,这里拆分公式通过上述例子来进行讲解。p表示出现正面的概率,n表示抛了几次硬币,k表示出现正面的次数。

(1)已知,抛一次硬币出现正面的概率是

,在第一次已经投完是正面的情况再投一次硬币也是正面的概率是多少?那就是

(2)所有随机变量之和等于1,则抛一次硬币出现反面的概率

,一共抛了3次,2次出现正面就意味着1次出现反面,则反面次数
,最后求得反面出现1次的概率是
;

(3)因为求得是3次中2次正面的概率,所以前两次是正面的情况下,第三次必须是反面才成立。前两次是正面的概率已经有了是

,反面出现的概率也是
,那再在这种情况下抛第三次又出现反面的概率就是

(4)现在得出的只是一种情况的概率,其他相似的情况有多少种呢?也就是说抛3次硬币出现2次正面的情况有多少种?可以用组合数公式进行计算

,其中!表示阶乘的意思,就是从自身开始递减一直到1,并将这之间的数字全部相乘,
;最后带入公式求得组合数是3,则抛3次硬币出现2次的概率就是

c1c2af560d74b5b37529ec9973eef6aa.png

现在问题升级,求20名学生考试,并分别计算有1,2,3.....k个人及格的概率。

代码实现及绘图:

#学生考试人数

7457c015344c6f286a41a86d6923bb77.png

③几何分布

几何分布与二项分布类似,都是在重复n次的伯努利试验中,第k次做某件事情时,才能成功一次的概率。比如某学生考试及格概率是35%,那么他参加一次考试的概率及格的概率就是35%(废话),那要是参加两次才能首次及格的概率又是多少?

同样用最笨的方法先计算这个问题,在第一次已经不及格的情况下计算第二次及格的概率。已知第一次不及格的概率等于

;在此基础上再计算第二次及格的概率就是

几何分布公式:

和二项分布公式的原理差不多,都是条件概率的运用,已知a发生的情况下b发生的概率。

代码实现及绘图:

#k次数

5eae286aa21c467d4ea3d9418d9ea9f8.png

④泊松分布

某个时间范围内,发生k次事件的概率有多大,就可以用泊松分布。泊松分布的公式比较复杂,就不进行讲解,知道怎么用就行。

代码实现及绘图:

#假设某路口发生事故的平均次数

80132053457a1cfe664c386e7929b61c.png

2.连续型分布

①正态分布

0e91126fbbff7fab386e1b2c30c8c029.png

正态分布的曲线图形两头低中间高,且左右对称,大部分数据都落在3个标准差范围内。自然界中大部分现象都符合正态分布,比如人的身高,大部分都在中间平均值的部分,只有个别人会特别高或特别矮。

代码实现及绘图:

#定义参数

f691862f240a9967602b6a38593eea08.png

②幂律分布

da4e2808503b059fc19c052f23379367.png

自然界中另外一种常见的分布就是幂律分布,比如个人财富,大部分财富都集中在少部分人手中,也就所谓的二八法则。

四、样本与总体

对于任何一件事物,我们总是想知道总体的全部信息。比如网上购物的用户信息,每所大学毕业生的薪资分布等等。但往往这样的总体没有办法和渠道去获取,所以就需要随机采集样本,以样本来推算总体的特征信息。所以随机,就是指每个样本被采集的概率相等。

比如最开始讲到的例子,用20人去推论50人的成绩情况。这个20人就是一个样本,50人就是总体。另外样本可以有多个的,因为是随机抽取20人,每次抽取出来的样本的分布情况会略有不同;同时样本存在大小,可以是20人也可以是30人。

72c036a688b21c2dad612f7222381ef9.png

代码实现随机抽样:

#导入包

a99edfa776825622aec176f5e1cd44a7.png
#声明随机抽取样本的函数

06e89e323f7c256b45f2b4d8759e6bb9.png

五、中心极限定理

样本信息为何可以代表总体信息,这主要是取决于中心极限定理,它有以下特征:

样本平均值约定于总体平均值

②任意一个总体的样本平均值都会围绕在总体平均值周围,并成正态分布。

代码实现:

#创建样本数据集

3919b259086a2e86d78212591f321862.png

六、常见偏见

①样本偏差

单凭一两个极端例子就推断总体。比如新闻上看到高学历者落寞街头,低学历者年入百万等等,这明显是样本不足,不具备说服性。或者是考试成绩,专门挑不及格的人当作样本,这样也不能反应整体。

②幸存者偏差

幸存者偏差(Survivor bias),另译为 “生存者偏差” 或 “存活者偏差”,是一种常见的逻辑谬误。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。日常表达为 “沉默的数据”、“死人不会说话” 等。可以用对照试验和贝叶斯公式来消除幸存者偏差。

这个最著名的例子就是二战期间,加固飞机防护的故事了。英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家亚伯拉罕力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。

3385f8b63b829af113a0a11f8d69efde.png

③概率偏见

概率偏见也叫心理概率,指的是一件事情主观上认为的概率和实际计算后的概率不一样。比如一个扑克牌游戏,桌面上盖放着4种花色的A。同时去翻两张,若两张颜色相同就算赢,乍一看是一个“公平”的游戏,胜率有50%,但实际计算结果胜率只有33%。把同时翻两张理解为分开两次翻牌,不管第一张翻到的是什么颜色的,剩下的三张牌里和第一张颜色一样的只有1张,所以第二次翻到相同颜色牌的概率就是1/3。

6f88c0d29ff2e7b9ff804c82287ab9d5.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值