总第202篇/张俊红
今天我们来聊聊统计学里面比较重要的一个定理:中心极限定理,中心极限定理是指:现在有一个总体数据,如果从该总体数据中随机抽取若干样本,重复多次,每次抽样得到的样本量统计值(比如均值)与总体的统计值(比如均值)应该是差不多的,而且重复多次以后会得到多个统计值,这多个统计值会呈正态分布。还是直接来看例子吧。
import numpy as np
import pandas as pd
import seaborn as sns
data = np.random.rand(10000)
sns.distplot(data)
上面代码是用来生成10000个随机数的,并绘制分布图。通过分布图可以看出,这10000个随机数基本是均等分布,也就是每个值出现的概率差不多。
现在我们从这10000个样本中随机抽取若干个样本(30、50、100、500),重复抽取100次,会得到100个样本均值,然后绘制样本均值分布图。
plt.figure(figsize = (9,9))
plt.subplot(221)
samp