中心极限定理是在统计学中除了大数定理的另一块基石,有着极为重要的意义和广泛的应用空间,本文就以通俗的案例来讲解什么是中心极限定理,中心极限定理的数据演示以及中心极限定理的应用。
什么是中心极限定理?
中心极限定理就是随机样本的均值总是围绕在总体均值周围,且呈正太分布。
先举个栗子:
现在要统计燕山大学2015年8000名毕业生三年后的平均薪资情况,把所有的毕业生都调查一遍的话成本太高,现在我们调查25组,每组40人,一共调查1000人,然后求出每一组的平均值,中心极限定理就是说,这些均值呈正太分布,而且随着每组样本的增加,效果会更好。把这些平均值相加再求均值,这个均值就非常接近总体均值了。
其中有几个点需要注意一下:
- 不管总体是怎样的分布,最后每组的均值还是呈正太分布
- 样本每组要足够大,但也不需要太大,取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
用实际数据来演示中心极限定理
注:使用python来模拟数据,不懂的同学可以略过代码
生成数据:我们用掷骰子这一概率论中经常用到的道具来演示,用python模拟掷100000次骰子,并求总体平均值。
import numpy as np
import pandas as pd
shaizi_data=np.random.randint(1,7,100000) #生成掷骰子随机数据</