推荐两种检验方法:1、夏皮罗一威尔克检验法(Shapiro-Wilk test);2、kstest。
前者适合小样本容量(样本容量小于5000)的正态分布检验,后者对样本容量没有要求。
夏皮罗一威尔克检验法(Shapiro-Wilk test)
可以使用夏皮罗一威尔克检验法(Shapiro-Wilk test),直接使用scipy里边现成的方法即可。代码如下:
>>> from scipy import stats
>>> import numpy as np
>>> np.random.seed(12345678)
>>> x = stats.norm.rvs(loc=5, scale=3, size=100)
>>> shapiro_test = stats.shapiro(x)
>>> shapiro_test
ShapiroResult(statistic=0.9772805571556091, pvalue=0.08144091814756393)
>>> shapiro_test.statistic
0.9772805571556091
>>> shapiro_test.pvalue
0.08144091814756393
夏皮罗一威尔克检验法的零假设是数据服从正态分布,pvalue较小的时候就可以推翻零假设。虽然上述代码中的pvalue较小,但是依然比0.05大,所以可以认为数据是服从正态分布的。
kstest
>>> from scipy import stats
>>> import numpy as np
>>> np.random.seed(12345678)
>>> x = stats.norm.rvs(loc=5, scale=3, size=10000)
>>> ks_test = stats.kstest((x-np.mean(x))/np.std(x), 'norm')
>>> ks_test
KstestResult(statistic=0.006592666116427712, pvalue=0.7749015790877247)
>>> ks_test.statistic
0.006592666116427712
>>> ks_test.pvalue
0.7749015790877247
和夏皮罗一威尔克检验法类似,零假设是数据服从正态分布,pvalue较小的时候就可以推翻零假设。