在对特定分析对象进行建模分析时,一般假设该模型变量服从正态分布,然后采用符合该变量的分析方法建立相关的分析模型。此外,根据熵定理,自然参数一般服从正态分布(高斯分布),因此,在进行建模之前,需要对所分析的数据进行正态分布检验分析,根据数据正态分布特性判断数据采集策略及模型性能优化方法。
目前数据正态分布检验方法主要分为3类:
1. 图形分析方法(graphical methods)
该类方法主要通过对分析数据建立直观图形判断是否服从正态分布,常用的图形分析方法主要有:直方图、Q-Q图及箱形图;
2. 数值方法(numerical methods)
该类方法通过检测分析数据的偏度(skewness)和峰度(kurtosis)实现正态测试;
3. formal normality test(应该翻译为正式正态检测)
主要包含经典正态分布检测方法:Shapiro(SW),Kolmogorov-Smirnov(KS),Lillefors(LF) test 和Aderson-Darling (AD),这4种方法是目前较广的分析方法,此外,在MATLAB中还有Jarque-Bera (JB)测试也用于数据正态分布测定。上述方法的数据公式表达依次为:
公式中各个变量含义及泛函表示请参考文献《Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov,Lilliefors and Anderson-Darling tests》。