一、前言
先看一下“MBA智库”上对推论统计学的解释。
推论统计学是指在统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
简单讲个例子,一个班级有50人参加了考试,可由于某些原因大部分数据丢失,只剩下了20人的考试成绩。那是否可以通过计算这20人的及格率来推断50人的及格率呢?
答案是肯定的。但这里有个前提,就是这20人的成绩必须是随机分布的,不能是某一区间段的成绩。也就是说这20个人不能全都是不及格的,而是要有高有低随机分布的。
二、随机事件与随机变量
在推论统计学中,在一定条件下一个事件可能发生或不发生的情况下称之为随机事件。比如上述举得例子中,一个学生是否及格就是一个随机事件。而这个事件的结果{及格,不及格}就是随机变量。一般对于这类只有两个结果的事件,可以用数字0和1来表达。
随机变量根据数据类型的不同又分为离散随机变量和连续随机变量。
同样拿学生考试这件事来讲,考试是否及格的结果就是离散随机变量,要么及格要么不及格,结果都是整数;而考试及格率就是连续随机变量,可以无限细分下去,一般是浮点数。
三、概率分布
若我们将随机事件发生的结果(即随机变量)都统计下来,就可以清楚地算出每个结果发生的概率是多少。而概率分布就指的每个随机变量的发生概率的分布情况,所有随机变量的发生概率之和是1。
比如20人里,及格人数是7人个人,则及格的概率 = 及格人数7 / 总人数20 = 35%;不及格的概率就是1 - 35% = 65%。
随机变量有离散随机变量和连续随机变量,同样地根据随机变量的不同,概率分布也为分离散型分布和连续型分布。
1.离散型分布
①伯努利分布
伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。
伯努利试验就是一种简单地“非黑即白”的试验,没有折中的余地。比如学生考试要么及格要么不及格,或者是投硬币要么正面要么反面。单次的伯努利试验是没有太大意义的,只有多次反复试验,去观察发生和不发生各自的概率才能发现意义。
代码实现及绘图:
#第一步:创建数据集
#第二步:计算概率分布
#第三步:绘制图形
②二项分布
在n次独立重复的伯努利试验中,发生k次事件的概率。
用抛硬币的例子来解释上面这段话。假设一次伯努利试验(抛硬币),它的结果只有正和反两个值。连续抛了3次硬币,其中出现2次正面朝上的概率是多少?先用最简单粗暴的方法计算一下这个问题,就是数数儿。
首先,抛3次硬币一共会出现8种情况,而这其中出现2次正面朝上的情况为3次,那么概率就等于 3 / 8 = 0.375,也就是37.5%。简单情况下可以这么算,但数字一大,比如抛100次硬币出现25次的概率是多少,那就一下子数不清了,所以就要用公式进行计算。
二项分布公式:
乍一看有点懵,这里拆分公式通过上述例子来进行讲解。p表示出现正面的概率,n表示抛了几次硬币,k表示出现正面的次数。
(1)已知,抛一次硬币出现正面的概率是
(2)所有随机变量之和等于1,则抛一次硬币出现反面的概率
(3)因为求得是3次中2次正面的概率,所以前两次是正面的情况下,第三次必须是反面才成立。前两次是正面的概率已经有了是
(4)现在得出的只是一种情况的概率,其他相似的情况有多少种呢?也就是说抛3次硬币出现2次正面的情况有多少种?可以用组合数公式进行计算
现在问题升级,求20名学生考试,并分别计算有1,2,3.....k个人及格的概率。
代码实现及绘图:
#学生考试人数
③几何分布
几何分布与二项分布类似,都是在重复n次的伯努利试验中,第k次做某件事情时,才能成功一次的概率。比如某学生考试及格概率是35%,那么他参加一次考试的概率及格的概率就是35%(废话),那要是参加两次才能首次及格的概率又是多少?
同样用最笨的方法先计算这个问题,在第一次已经不及格的情况下计算第二次及格的概率。已知第一次不及格的概率等于
几何分布公式:
和二项分布公式的原理差不多,都是条件概率的运用,已知a发生的情况下b发生的概率。
代码实现及绘图:
#k次数
④泊松分布
某个时间范围内,发生k次事件的概率有多大,就可以用泊松分布。泊松分布的公式比较复杂,就不进行讲解,知道怎么用就行。
代码实现及绘图:
#假设某路口发生事故的平均次数
2.连续型分布
①正态分布
正态分布的曲线图形两头低中间高,且左右对称,大部分数据都落在3个标准差范围内。自然界中大部分现象都符合正态分布,比如人的身高,大部分都在中间平均值的部分,只有个别人会特别高或特别矮。
代码实现及绘图:
#定义参数
②幂律分布
自然界中另外一种常见的分布就是幂律分布,比如个人财富,大部分财富都集中在少部分人手中,也就所谓的二八法则。
四、样本与总体
对于任何一件事物,我们总是想知道总体的全部信息。比如网上购物的用户信息,每所大学毕业生的薪资分布等等。但往往这样的总体没有办法和渠道去获取,所以就需要随机采集样本,以样本来推算总体的特征信息。所以随机,就是指每个样本被采集的概率相等。
比如最开始讲到的例子,用20人去推论50人的成绩情况。这个20人就是一个样本,50人就是总体。另外样本可以有多个的,因为是随机抽取20人,每次抽取出来的样本的分布情况会略有不同;同时样本存在大小,可以是20人也可以是30人。
代码实现随机抽样:
#导入包
#声明随机抽取样本的函数
五、中心极限定理
样本信息为何可以代表总体信息,这主要是取决于中心极限定理,它有以下特征:
①样本平均值约定于总体平均值。
②任意一个总体的样本平均值都会围绕在总体平均值周围,并成正态分布。
代码实现:
#创建样本数据集
六、常见偏见
①样本偏差
单凭一两个极端例子就推断总体。比如新闻上看到高学历者落寞街头,低学历者年入百万等等,这明显是样本不足,不具备说服性。或者是考试成绩,专门挑不及格的人当作样本,这样也不能反应整体。
②幸存者偏差
幸存者偏差(Survivor bias),另译为 “生存者偏差” 或 “存活者偏差”,是一种常见的逻辑谬误。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。日常表达为 “沉默的数据”、“死人不会说话” 等。可以用对照试验和贝叶斯公式来消除幸存者偏差。
这个最著名的例子就是二战期间,加固飞机防护的故事了。英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家亚伯拉罕力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。
③概率偏见
概率偏见也叫心理概率,指的是一件事情主观上认为的概率和实际计算后的概率不一样。比如一个扑克牌游戏,桌面上盖放着4种花色的A。同时去翻两张,若两张颜色相同就算赢,乍一看是一个“公平”的游戏,胜率有50%,但实际计算结果胜率只有33%。把同时翻两张理解为分开两次翻牌,不管第一张翻到的是什么颜色的,剩下的三张牌里和第一张颜色一样的只有1张,所以第二次翻到相同颜色牌的概率就是1/3。