![81ca6972619259469c35a5e62f287184.png](https://img-blog.csdnimg.cn/img_convert/81ca6972619259469c35a5e62f287184.png)
当我们收集到数据后,不管是做过程能力分析也好,做检验也好,都先必须确认拿到的数据是否是服从正态分布。对于非正态分布的数据,要么转换为正态分布后处理,要么用非参数的方式进行处理。
如果不做正态性检验直接进行数据分析,那么分析结果的可信性将会大大的降低。
步骤1,正态性检验
在Minitab中,选择Stat → Basic Statistics → Normality test
![ee797168739ad7ceebd065a1432aa3da.png](https://img-blog.csdnimg.cn/img_convert/ee797168739ad7ceebd065a1432aa3da.png)
在“Variable”中选择待判断的数据后,点击OK。
Minitab的正态性检验有三种方式,分别为Anderson-Darling(AD检验),Ryan-Joiner(RJ检验)和Kolmogorov-Smirnov(KS检验)。其中AD检验为默认选项。
关于AD检验,RJ检验和KS检验的使用场合的比较,可以参考下文。
经典比较篇之五:AD, RJ, 或KS: 哪一个正态检验最好?
![6f40425aacfdf9fb88c0e491a7b43b51.png](https://img-blog.csdnimg.cn/img_convert/6f40425aacfdf9fb88c0e491a7b43b51.png)
观察P-Value。
在显著性水平α=0.05的情况下,P值大于0.05时,数据呈现正态分布,
P值小于0.05时,数据呈现非正态分布。
在本例中P-Value=0.153,所以数据是服从正态分布的。
![978a3153d3b3b14235d55c36ebb9e522.png](https://img-blog.csdnimg.cn/img_convert/978a3153d3b3b14235d55c36ebb9e522.png)
如果这一步分析出数据为非正态分布,则进行下一步骤。
步骤2:拟合优度检验
比如现在有这样一组数据,P-Value为0.009,小于等于0.05,非正态分布。接下来我们就来判断一下这组数据是什么分布的。
选择Stat → Quality Tools → Individual Distribution Identification(拟合优度检验)
![9e14f75c230842a045b1ae874dc2dd81.png](https://img-blog.csdnimg.cn/img_convert/9e14f75c230842a045b1ae874dc2dd81.png)
选择待分析的数据后,选择“Use all distributions and transformations”,单击OK。
![fdb9f99e92f06695ea4d43298ae8c2e4.png](https://img-blog.csdnimg.cn/img_convert/fdb9f99e92f06695ea4d43298ae8c2e4.png)
这样,在“Session”中,就会显示出所有分布和变换的拟合度P-value
![2475932f60ea221f2e1d83f49bf2287c.png](https://img-blog.csdnimg.cn/img_convert/2475932f60ea221f2e1d83f49bf2287c.png)
现在我们分别解释一下AD,P,LRT P代表的含义。
AD(只是用作参考)
Anderson-Darling 拟合优度统计量 (AD) 用来度量拟合线(基于所选分布)和非参数阶梯函数(基于数据点)之间的偏差。
Anderson-Darling 统计量是指,将分布尾中加权的平方距离。
Minitab 使用 Anderson-Darling 统计量计算 p 值。
通常,如果 Anderson-Darling 统计量明显很小,则表明数据能够更紧密地服从分布。但是,当不同分布的 AD 值接近时,请避免直接比较这些值,因为不同分布的 AD 统计量的分布各不相同。为了更好地比较对不同分布的拟合,请使用额外的标准,如概率图、p 值和过程知识。
P
将每个分布或变换的 p 值与显著性水平进行比较。
通常选择显著性水平α为 0.05 即可。显著性水平 0.05 指示当数据实际上服从分布时,判定数据不服从分布的风险为 5%。
P ≤ α:数据不服从分布(否定 H0)
P > α:无法得出数据不服从分布的结论(无法否定 H0),可以假设数据服从分布。
如果多个分布能够提供良好的拟合,则需要下列策略来选择分布:
- 选择行业或应用中最常用的分布。
- 选择可提供最保守结果的分布。
- 选择能够很好地拟合数据的最简单分布。
例如,如果 2 参数和 3 参数分布都提供良好的拟合,则可以选择较为简单的 2 参数分布。
Important information
在解释很小或很大样本的结果时请务必谨慎。
如果样本很小,则拟合优度检验可能没有足够的功效来检测与分布存在显著偏差的情况。
如果样本很大,则该检验的功效可能很高,从而可以检测到与分布的微小但不具实际意义的偏差。
除 P值以外,还要使用概率图评估分布拟合。
LRT P(极大似然比P)
使用 LRT P 值可确定添加额外参数是否比不带额外参数的分布的拟合有显著改进。
比如:
![27d74d90cfd70b253b0c7ad84ca9f254.png](https://img-blog.csdnimg.cn/img_convert/27d74d90cfd70b253b0c7ad84ca9f254.png)
这里Minitab将威布尔分布和三参数威布尔分布进行了分析,三参数威布尔分布的LRT P为0.000,小于显著性水平0.05,即代表增加一个参数后,威布尔分布的拟合有了显著改善。
在这个例子中,我们可以知道:
- 3-Parameter Weibull(三参数威布尔分布,P=0.124),
- Largest Extreme Value(最大极值,P>0.250),
- logistic(P=0.063),
- Loglogistic(对数 Logistic,P=0.067),
- 3-Parameter Loglogistic(三参数对数Logistic,LRT P=0.039,在对数Logistic的基础上拟合有了显著改善),
- Johnson Transformation(Johnson变换,P=0.918)
以上的分布和变换的P值都大于0.05,其中又以Largest Extreme Value和3-Parameter Weibull的拟合最好。并且,Johnson变换将数据变换为服从正态分布方面有效。
使用带拟合线的直方图输出图形可视化一下,如下图所示。
![6ed755606addeea04871b40c1935fb4e.png](https://img-blog.csdnimg.cn/img_convert/6ed755606addeea04871b40c1935fb4e.png)
结尾
通过以上的步骤,我们就可以判断出数据是否符合正态分布了。
并且,在非正态分布的情况下我们也知道了数据属于什么分布,或者通过什么变换可以转换为正态分布。
欢迎关注我的公众号:“精益质量”
![df8754f400fe3d8f486774c18f4f9ab6.png](https://img-blog.csdnimg.cn/img_convert/df8754f400fe3d8f486774c18f4f9ab6.png)