知识点1 中心极限定理(Central Limit Theorem)

提示:通俗统计学原理入门4 均值抽样分布 中心极限定理_哔哩哔哩_bilibili


前言

通过本知识点的学习能够更好的理解中心极限定理!


一、首先介绍均值抽样分布(Easy!)

假设你想知道5000名大一新生高考英语平均分,但是由于各种原因和限制,我们拿不到成绩单,这个时候我们该怎么办?

 

 

答案是:我们可以进行抽样。抽样就是从一个总体,也就是这5000名新生中,随机抽取一些个体数量n,这叫做样本容量。

然后我们可以计算这个样本的平均值,用来估计总体的平均值。例如我们随机抽取5名新生的英语成绩,然后求其平均值。但是我们随机抽取一次(1次抽取5人)然后求其平均值就能代表总体的平均值吗?答案当然是不可能的,所以我们应该多取几次。下面我们来用仿真来去完成本次实验!

 上图,我们采用仿真来去进行抽样,我们设置样本容量是5人,就是先随机抽取5人然后求其平均值是136.2,然后把数据放到图中,横坐标表示每次抽样的平均成绩,纵坐标表示出现的次数。

上图是我们重复做了1000次(每次取5个人成绩相加求平均)所得到的结果,我们可以看到随着次数增加,逐渐接近正态分布啦。而中间的竖红线就基本上能够代表整体的平均数了,也就是我们在一开始想要得到的整体的平均数。

下面呢,我们再想,能不能把样本变为20人(每次抽取20人成绩然后相加求平均),那么会发生什么变化呢?为此我们本次实验只是把样本容量改为20人,重复做。

这里,我们仅仅重复做了200次实验,已经接近正态分布了,800次之后图形几乎就不变了。并且不难发现,此次实验均值分布相对于上述样本容量为5的实验更加集中了。同样,红线表示的对称轴也就是我们要估计的整体均值了。

最后呢,我们打开尘封已久的Excel文档,好好算一下真实的整体均值是多少?就是5000名大学新生英语成绩公开了,我们找到5000名学生英语成绩之后求和然后除以5000之后得到\mu=137.41,恰好与我们的两次虚拟仿真实验获得正态分布的对称轴上的数几乎逼近。

这说明什么呢?

这说明,假如我们在不能获得总体全貌的情况下,只要我们对整体进行反复的随机抽样,只要样本容量n足够大,只要抽样次数足够多,我们就可以获得一个接近正态分布轮廓的均值抽样分布,而这个分布的对称轴,就必然是总体均值的真实值\mu!

Amazing!!!!

当然要注意的是,我们这里图示统计图的横坐标没有精确的0.1这样的位置,如果精确之后,我们就能够估计到更加精确的整体均值,如下图。

二、均值抽样分布版本的中心极限定理

因此,我们根据第一个板块的实验可以得到一个通俗易懂的中心极限定理,即对一个总体进行大量重复的随机抽样并计算均值,并将每次的抽样均值在坐标轴上用柱状图来表示频次高低,最终将得到一个正态分布的轮廓,且此正态分布的对称轴所标示的值,即为总体的真实均值\mu。抽样的样本容量n越大,则显现出正态分布轮廓所需要的抽样次数就越少

总结

比较样本容量n=5和n=20两次实验的抽样分布发现,虽然都是抽样1000次, n=20的轮廓比n=5的轮廓要尖。我们回忆之前课程的内容,轮廓越尖,说明正态分布的方差越小。方差越小,说明数据越集中。
这个从感性上来理解也是直观的。样本容量n越大,就越能代表总体,计算出的均值就越接近真实值\mu; n=5000时,样本就是总体了,抽1次样,就可以获得总体均值\mu了。

那么如果让你选择样本容量,你是选择样本为5呢还是20呢?答案不言而喻,当时是选择20,样本越多越能够代表整体的均值! 

好啦,以上就是对中心极限定理的通俗理解,如果还不明白的话,就结合最上面提示链接一块来学习吧!

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值