概率论与数理统计教程(七)-假设检验05:正态性检验

本文深入探讨了正态性检验,包括正态概率图的使用方法、GB/T 4882-2001 推荐的W检验和EP检验的原理与步骤,并通过具体案例展示如何进行正态性判断。W检验中,介绍了夏皮罗-威尔克(Shapiro-Wilk)检验统计量的计算和应用,而EP检验则是Epps-Pulley检验的简要介绍。通过这些方法,可以评估数据是否遵循正态分布,从而在实际问题中作出相应决策。
摘要由CSDN通过智能技术生成

§ 7.5 正态性检验
正态分布是最常用的分布,
用来判断总体分布是否为正态分布的检验方法称为正态性检验,
它在实际问题中大量使用.
接下来我们先叙述简单而又直观的正态性检验一一正态概率图, 然后介绍国家标准
GB/T 4882-2001 中推荐的、并已被广泛应用的两种正态性检验方法------ 检验和
EP 检验.
7.5.1 正态概率纸
正态概率纸是一种特殊的坐标纸, 其横坐标是等间隔的,
纵坐标是按标准正态分布函数值给出的, 见图 7.5.1.
正态概率纸可用来作正态性检验, 方法如下: 利用样本数据在概率纸上描点,
用目测方法看这些点是否在一条直线附近, 若是的话,
可以认为该数据来自的总体为正态分布, 若明显不在一条直线附近,
则认为该数据来自非正态总体. 具体操作步骤见下面的例子.
例 7.5.1 随机选取 10 个零件, 测得其直径与标准尺寸的偏差 (单位: 丝, 1 丝
= = = 0.01   m m ) 0.01 \mathrm{~mm}) 0.01 mm)
如下:外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传{width=“486px”}
图 7.5.1 正态概率纸
9.4 8.8 9.6 10.2 10.1 7.2 11.1 8.2 8.6 9.8 \begin{array}{llllllllll}9.4 & 8.8 & 9.6 & 10.2 & 10.1 & 7.2 & 11.1 & 8.2 & 8.6 & 9.8\end{array} 9.48.89.610.210.17.211.18.28.69.8
在正态概率纸上作图步骤如下:
(1) 首先将数据按从小到大的次序排列:
x ( 1 ) ⩽ x ( 2 ) ⩽ ⋯ ⩽ x ( n ) x_{(1)} \leqslant x_{(2)} \leqslant \cdots \leqslant x_{(n)} x(1)x(2)x(n),
具体数据为
7.2 8.2 8.6 8.8 9.4 9.6 9.8 10.1 10.2 11.1 \begin{array}{llllllllll}7.2 & 8.2 & 8.6 & 8.8 & 9.4 & 9.6 & 9.8 & 10.1 & 10.2 & 11.1\end{array} 7.28.28.68.89.49.69.810.110.211.1
(2) 对每一个 i i i, 计算修正频率
i − 0.375 n + 0.25 ( i = 1 , 2 , ⋯ n ) \frac{i-0.375}{n+0.25}(i=1,2, \cdots n) n+0.25i0.375(i=1,2,n), 结果见表 7.5.1.
表 7.5.1 x ( i ) x_{(i)} x(i) 取值及其修正频率
i i i x ( 0 ) x_{(0)} x(0) i − 0.375 n + 0.25 \frac{i-0.375}{n+0.25} n+0.25i0.375 i i i x ( 1 ) x_{(1)} x(1) i − 0.375 n + 0.25 \frac{i-0.375}{n+0.25} n+0.25i0.375


1       7.2               0.061              6       9.6               0.549
2       8.2               0.159              7       9.8               0.646
3       8.6               0.256              8      10.1               0.744
4       8.8               0.354              9      10.2               0.841
5       9.4               0.451             10      11.1               0.939

(3) 将点
( x ( i ) , i − 0.375 n + 0.25 ) ( i = 1 , 2 , ⋯   , n ) \left(x_{(i)}, \frac{i-0.375}{n+0.25}\right)(i=1,2, \cdots, n) (x(i),n+0.25i0.375)(i=1,2,,n)
逐一描在正态概率图上( 图
7.5.2),外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传{width=“318px”}
图 7.5.2 例7.5.1 的正态概率纸
(4) 观察上述 n n n 个点的分布,作如下判断,
- 若诸点在一条直线附近, 则认为该批数据来自正态总体.
- 若诸点明显不在一条直线附近,则认为该批数据的总体不是正态分布.
本例中, 从图 7.5.2 上可以看到, 10 个点基本在一条直线附近,
故可认为直径与标准尺寸的偏差服从正态分布.
这里对 “修正频率” 作一点说明. 对应第 i i i 个观测值 x ( i ) x_{(i)} x(i)
的累计分布函数值
F ( x ( i ) ) = P ( X ⩽ x ( i ) ) F\left(x_{(i)}\right)=P\left(X \leqslant x_{(i)}\right) F(x(i))=P(Xx(i)) 是一个概率,
可用频率作出估计, 即
F ^ ( x ( i ) ) =  样本中小于等于  x ( i )  的个数   样本量  = i n .  \hat{F}\left(x_{(i)}\right)=\frac{\text { 样本中小于等于 } x_{(i)} \text { 的个数 }}{\text { 样本量 }}=\frac{i}{n} \text {. } F^(x(i))= 样本量  样本中小于等于 x(i) 的个数 =ni
这个频率有合理的一面, 但也有一些缺陷, 即当 i = n i=n i=n 时该频率为 1 , 这意味着
x x x 的取值最大为 x ( n ) x_{(n)} x(n), 不可能再超过 x ( n ) x_{(n)} x(n), 这往往与实际不符,
对此需要修正. 常见的有如下两个修正频率:
F ^ ( x ( i ) ) = i n + 1 , F ^ ( x ( i ) ) = i − 3 / 8 n + 1 / 4 , \hat{F}\left(x_{(i)}\right)=\frac{i}{n+1}, \quad \hat{F}\left(x_{(i)}\right)=\frac{i-3 / 8}{n+1 / 4}, F^(x(i))=n+1i,F^(x(i))=n+1/4i3/8,
国标 GB/T 4882-2001 推荐使用后者,但并不反对使用前者.本节中使用后者.
如果从正态概率纸上确认总体是非正态分布时,
可对原始数据进行变换后再在正态概率纸上描点,
若变换后的点在正态概率纸上近似在一条直线附近,
则可以认为变换后的数据来自正态分布, 这样的变换称为正态性变换.
常用的正态性变换有如下三个: 对数变换 y = ln ⁡ x y=\ln x y=lnx 、倒数变换 y = 1 / x y=1 / x y=1/x
和根号变换 y = x y=\sqrt{x} y=x , 它们都属于经典的博克斯-考克斯(Box-Cox) 变换。
例 7.5.2 随机抽取某种电子元件 10 个, 测得其寿命数据如下:
539.35 179.49 782.93 561.10 286.80 \begin{array}{lllll}539.35 & 179.49 & 782.93 & 561.10 & 286.80\end{array} 539.35179.49782.93561.10286.80
图 7.5.3 给出这 10 个点在正态概率纸上的图形, 这 10
个点明显不在一条直线附近, 所以可认为该电子元件的寿命的分布不是正态分布.
对该 10 个寿命数据作对数变换, 结果见表
7.5.2.外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传{width=“294px”}
图 7.5.3 例7.5.2 的正态概率纸
表 7.5.2 对数变换后的数据
i i i x ( i ) x_{(i)} x(i) ln ⁡ x ( i ) \ln x_{(i)} lnx(i) i − 0.375 n + 0.25 \frac{i-0.375}{n+0.25} n+0.25i0.375 i i i x ( i ) x_{(i)} x(i) ln ⁡ x ( i ) \ln x_{(i)} lnx(i) i − 0.375 n + 0.25 \frac{i-0.375}{n+0.25} n+0.25i0.375


1 32.62 3.4849 0.061 6 286.80 5.6588 0.549
2 97.04 4.5751 0.159 7 539.35 6.2904 0.646
3 99.16 4.5967 0.256 8 561.10 6.3299 0.744
4 110.47 4.7047 0.354 9 782.93 6.6630 0.841
5 179.49 5.1901 0.451 10 2269.82 7.7275 0.939
利用表 7.5.2 中最后两列上的数据在正态概率纸上描点, 结果见图 7.5.4,
从图上可以看到 10 个点近似在一条直线附近,
说明对数变换后的数据可以看成来自正态分布. 这也意味着,
可认为原始数据服从对数正态分布.
7.5.2 W 检验
W W W 检验是夏皮罗 (Shapiro) 和威尔克 (Wilk) 在 1965 年提出来的,
这个检验当 8 ⩽ 8 \leqslant 8 n ⩽ 50 n \leqslant 50 n50 时可以利用. 过小样本 ( n < 8 ) (n<8) (n<8)
对偏离正态分布的检验不太有效, 过大样本 ( n > 50 ) (n>50) (n>50)的一些辅助量计算麻烦.
x 1 , x 2 , ⋯   , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,,xn 是来自正态总体
N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的样本,
x ( 1 ) ⩽ x ( 2 ) ⩽ ⋯ ⩽ x ( n ) x_{(1)} \leqslant x_{(2)} \leqslant \cdots \leqslant x_{(n)} x(1)x(2)x(n)
为其次序统计量, W W W
统计量定义为外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传{width=“318px”}
图7.5.4 变换后数据的正态概率纸
W = [ ∑ i = 1 n ( a i − a ˉ ) ( x ( i ) − x ˉ ) ] 2 ∑ i = 1 n ( a i − a ˉ ) 2 ∑ i = 1 n ( x ( i ) − x ˉ ) 2 , W=\frac{\left[\sum_{i=1}^{n}\left(a_{i}-\bar{a}\right)\left(x_{(i)}-\bar{x}\right)\right]^{2}}{\sum_{i=1}^{n}\left(a_{i}-\bar{a}\right)^{2} \sum_{i=1}^{n}\left(x_{(i)}-\bar{x}\right)^{2}}, W=i=1n(aiaˉ)2i=1n(x(i)xˉ)2[i=1n(ai

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值