老板开会说,他想知道该市所有医生的平均收入,老板让你谈谈你的想法。你说:首先应该从该市所有医生中进行50次随机抽样,每次抽取200人,则可以算出50个平均收入值,然后对这50个平均值再取平均值,根据中心极限定理,该平均值就会很接近于该市所有医生的平均收入。
把例子中的数据广义化,就能归纳出中心极限定理的概念。
中心极限定理:中心极限定理指的是给定一个任意分布的总体。每次从该总体中随机抽取 n个样本,一共抽 m 次,然后把这 m 组抽样分别求出平均值。 这些平均值的分布近似服从正态分布。
1、下面对中心极限定理进行演示:
一日闲来无趣,你自己制作了六个纸团,分别写着数字1-6,每次从六个纸团中抓取一个,一共抓取了1000次。因为每个纸团被抽中的概率是相等的,因此这个总体是服从均匀分布的,即6个数字出现的次数都在165次左右,该总体的均值为1/6×(1+2+3+4+5+6)=3.5。
![aa2dcf2f9e54aefc11cbfa2272e3408a.png](https://i-blog.csdnimg.cn/blog_migrate/ecaace82a358bdd8b54a0df2f542b891.jpeg)
图1:总体分布图
现在我们从模拟的结果中进行抽样,抽取100组,每组10个样本,这100组的均值分布大概如图2:
![9a67f52884fd246a5ddfb80f2aa7b102.png](https://i-blog.csdnimg.cn/blog_migrate/034e9fab60297561ece0ae8db014e1a3.jpeg)
图2
换一种抽样方式,还是从1000个总体中抽样,抽取100次,但是每组的样本量改为50个,100组的均值分布为图3:
![3596a28ffa86531f878db6ab34c74a6c.png](https://i-blog.csdnimg.cn/blog_migrate/069b0718c1442909ed5f58547e276ee9.jpeg)
图3
再把每组的样本量改为100个,均值的直方图为图4:
![112549096b964a2cb9416de60f09e7b7.png](https://i-blog.csdnimg.cn/blog_migrate/1341714102844eff70059cb5e2a4c156.jpeg)
图4:均值直方图
由上述例子可以看出:无论总体是什么样的分布(如所给例子,总体分布不是正态分布,而是均匀分布),依据上述过程进行多次抽样,样本统计量始终紧紧围绕在总体参数周围,并且是呈正态分布的。而且每次抽样的样本含量越多,正态性越明显。
回到刚开始的例子,既然样本统计量会始终围绕在总体参数周围,并且呈正态分布。那么,我们用多次抽样后得到的平均收入近似代替该市所有医生的平均收入是合理可行的。#清风计划#
![2afe2daad30d385b3da20680b50218e7.gif](https://i-blog.csdnimg.cn/blog_migrate/92ed54a7c16ea4d33db28ee7f6405641.gif)
![3b2c13de03c22bd642252d6fda5a7a15.gif](https://i-blog.csdnimg.cn/blog_migrate/f20a12d7f16d9df8b4095dcfd32adf27.gif)