c语言如何判断数据是否符合正态分布_获得数据后首先要做的事儿--数据分布的确认...

81ca6972619259469c35a5e62f287184.png

当我们收集到数据后,不管是做过程能力分析也好,做检验也好,都先必须确认拿到的数据是否是服从正态分布。对于非正态分布的数据,要么转换为正态分布后处理,要么用非参数的方式进行处理。

如果不做正态性检验直接进行数据分析,那么分析结果的可信性将会大大的降低。

步骤1,正态性检验

在Minitab中,选择Stat → Basic Statistics → Normality test

ee797168739ad7ceebd065a1432aa3da.png

在“Variable”中选择待判断的数据后,点击OK。

Minitab的正态性检验有三种方式,分别为Anderson-Darling(AD检验),Ryan-Joiner(RJ检验)和Kolmogorov-Smirnov(KS检验)。其中AD检验为默认选项。
关于AD检验,RJ检验和KS检验的使用场合的比较,可以参考下文。
经典比较篇之五:AD, RJ, 或KS: 哪一个正态检验最好?

6f40425aacfdf9fb88c0e491a7b43b51.png

观察P-Value。

在显著性水平α=0.05的情况下,P值大于0.05时,数据呈现正态分布,

P值小于0.05时,数据呈现非正态分布。

在本例中P-Value=0.153,所以数据是服从正态分布的。

978a3153d3b3b14235d55c36ebb9e522.png

如果这一步分析出数据为非正态分布,则进行下一步骤。

步骤2:拟合优度检验

比如现在有这样一组数据,P-Value为0.009,小于等于0.05,非正态分布。接下来我们就来判断一下这组数据是什么分布的。

选择Stat → Quality Tools → Individual Distribution Identification(拟合优度检验)

9e14f75c230842a045b1ae874dc2dd81.png

选择待分析的数据后,选择“Use all distributions and transformations”,单击OK。

fdb9f99e92f06695ea4d43298ae8c2e4.png

这样,在“Session”中,就会显示出所有分布和变换的拟合度P-value

2475932f60ea221f2e1d83f49bf2287c.png

现在我们分别解释一下AD,P,LRT P代表的含义。


AD(只是用作参考)

Anderson-Darling 拟合优度统计量 (AD) 用来度量拟合线(基于所选分布)和非参数阶梯函数(基于数据点)之间的偏差。

Anderson-Darling 统计量是指,将分布尾中加权的平方距离。

Minitab 使用 Anderson-Darling 统计量计算 p 值。

通常,如果 Anderson-Darling 统计量明显很小,则表明数据能够更紧密地服从分布。但是,当不同分布的 AD 值接近时,请避免直接比较这些值,因为不同分布的 AD 统计量的分布各不相同。为了更好地比较对不同分布的拟合,请使用额外的标准,如概率图、p 值和过程知识。

P

将每个分布或变换的 p 值与显著性水平进行比较。

通常选择显著性水平α为 0.05 即可。显著性水平 0.05 指示当数据实际上服从分布时,判定数据不服从分布的风险为 5%。

P ≤ α:数据不服从分布(否定 H0)

P > α:无法得出数据不服从分布的结论(无法否定 H0),可以假设数据服从分布。

如果多个分布能够提供良好的拟合,则需要下列策略来选择分布:

  • 选择行业或应用中最常用的分布。
  • 选择可提供最保守结果的分布。
  • 选择能够很好地拟合数据的最简单分布。
    例如,如果 2 参数和 3 参数分布都提供良好的拟合,则可以选择较为简单的 2 参数分布。
Important information
在解释很小或很大样本的结果时请务必谨慎。
如果样本很小,则拟合优度检验可能没有足够的功效来检测与分布存在显著偏差的情况。
如果样本很大,则该检验的功效可能很高,从而可以检测到与分布的微小但不具实际意义的偏差。
除 P值以外,还要使用概率图评估分布拟合。

LRT P(极大似然比P)

使用 LRT P 值可确定添加额外参数是否比不带额外参数的分布的拟合有显著改进。

比如:

27d74d90cfd70b253b0c7ad84ca9f254.png

这里Minitab将威布尔分布和三参数威布尔分布进行了分析,三参数威布尔分布的LRT P为0.000,小于显著性水平0.05,即代表增加一个参数后,威布尔分布的拟合有了显著改善。

在这个例子中,我们可以知道:

  • 3-Parameter Weibull(三参数威布尔分布,P=0.124),
  • Largest Extreme Value(最大极值,P>0.250),
  • logistic(P=0.063),
  • Loglogistic(对数 Logistic,P=0.067),
  • 3-Parameter Loglogistic(三参数对数Logistic,LRT P=0.039,在对数Logistic的基础上拟合有了显著改善),
  • Johnson Transformation(Johnson变换,P=0.918)

以上的分布和变换的P值都大于0.05,其中又以Largest Extreme Value和3-Parameter Weibull的拟合最好。并且,Johnson变换将数据变换为服从正态分布方面有效。

使用带拟合线的直方图输出图形可视化一下,如下图所示。

6ed755606addeea04871b40c1935fb4e.png

结尾

通过以上的步骤,我们就可以判断出数据是否符合正态分布了。

并且,在非正态分布的情况下我们也知道了数据属于什么分布,或者通过什么变换可以转换为正态分布。

欢迎关注我的公众号:“精益质量

df8754f400fe3d8f486774c18f4f9ab6.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值