正态性检验方法有很多种,主要可以分为以下几类:
图示法 | 统计方法 |
---|---|
正态概率图、频率直方图、PP图、QQ图 | 偏度峰度检验、皮尔逊卡方检验、K-S检验、W检验、EP检验、秩和检验、游程检验等非参检验 |
按理说图示法应该是最简单的方法,但大多本科统计学教材并不会涉及PP图和QQ图,上网搜会发现各有各的画法云里雾里,为了防止之后再看一次又乱了所以自己再整理了一下
QQ图
QQ图全称是Quantile-Quantile Plot,要理解QQ图的绘制首先要把握好分位数(Quantile)的概念:
分位数(分位点)
给定总体X,其概率分布函数为F(x),若x满足
F
(
x
)
=
p
F(x)=p
F(x)=p
则称x为第0.25分位数
四分位数=第0.25分位数=第25百分位数,我们平常接触的定义是四分位数和百分位数,在后续换成中间那种理解就可以了,例如对该总体,第0.25分位数为-3,也就是F(-3)=0.25
上面针对的是连续分布函数F存在的情况,在很多实际问题中这个总体分布是未知的,我们只能用样本推断,用得到样本经验分布来近似总体分布
假设总体X未知,但我们有一个容量为n的样本
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn),可以得到次序统计量
(
x
(
1
)
,
.
.
.
,
x
(
n
)
)
(x_{(1)},...,x_{(n)})
(x(1),...,x(n)),并导出样本经验分布
F
n
(
x
)
F_n(x)
Fn(x):
F
n
(
x
)
=
{
0
x
<
x
(
1
)
k
n
x
(
k
)
≤
x
<
x
(
k
+
1
)
,
k
=
1
,
.
.
.
,
n
−
1
1
x
≥
x
(
n
)
F_n(x)=\left\{ \begin{aligned} & 0 & x<x_{(1)} \\ & \frac{k}{n} & x_{(k)}\leq{x} <x_{(k+1)},k=1,...,n-1 \\ & 1 & x\geq x_{(n)} \end{aligned} \right.
Fn(x)=⎩
⎨
⎧0nk1x<x(1)x(k)≤x<x(k+1),k=1,...,n−1x≥x(n)
这个经验分布的形式直接,易于理解,但有缺陷,比如当x取到
x
(
n
)
x_{(n)}
x(n)时,分布函数值就为1了,那是不是有种比
x
(
n
)
x_{(n)}
x(n)大的样本值不可能存在的意思?所以通常情况下会对上述经验分布做一些修正,将
k
n
\frac{k}{n}
nk做一些小改动,主要有以下几种改法:
k
−
0.5
n
;
k
n
+
1
;
k
−
0.375
n
+
0.25
\frac{k-0.5}{n}; \frac{k}{n+1}; \frac{k-0.375}{n+0.25}
nk−0.5;n+1k;n+0.25k−0.375
在QQ图绘制时用的是第一种修正形式,在正态概率图绘制时则会用到第三种
此时我们考虑 F n ( x ) = p F_n(x)=p Fn(x)=p,由于经验分布的非连续性,如果给定的p不在 { k − 0.5 n , k = 1 , . . . , n } \{\frac{k-0.5}{n},k=1,...,n\} {nk−0.5,k=1,...,n}中,是不能直接对应到x的
所以为了理解上的方便,在对样本设定分位数时,样本量多少就取多少个分位点,如样本量为n就有n个分位数,这样对于每个次序统计量 x ( i ) x_{(i)} x(i),都可以确定它是第几分位数,同样地给定p求第p分位数能得到一个样本值 x ( i ) x_{(i)} x(i),只要由下式通过 i i i建立起 p p p和 x x x的一一对应就好: p i = F n ( x ( i ) ) = i − 0.5 n , i = 1 , . . . , n p_i=F_n(x_{(i)})=\frac{i-0.5}{n},i=1,...,n pi=Fn(x(i))=ni−0.5,i=1,...,n
回到正态性检验QQ图上,它是散点图,横坐标为期望总体分布(正态性检验就是标准正态分布)的分位数,纵坐标为样本经验分布的分位数,如此一来一共有n个点,每个描的点坐标形式就是:
(
ϕ
−
1
(
p
i
)
,
x
(
i
)
)
(\phi^{-1}(p_i),x_{(i)})
(ϕ−1(pi),x(i))
如果还觉得晕看个例子就好了:
样本为(2,6,4,7),考虑
i
=
1
i=1
i=1,就有
p
=
1
−
0.5
4
=
0.125
p=\frac{1-0.5}{4}=0.125
p=41−0.5=0.125,通过p可以确定标准正态分布的分位数(由
p
=
ϕ
(
x
)
p=\phi(x)
p=ϕ(x)得到分位数
x
x
x,可以直接查表)和样本经验分布的分位数(由
p
=
F
n
(
x
)
p=F_n(x)
p=Fn(x)得到
x
x
x)
当然,搞明白上面的关系可以发现样本经验分布的分位数可以直接由
i
i
i得到,即
x
(
i
)
x_{(i)}
x(i),在这里
x
(
2
)
=
4
x_{(2)}=4
x(2)=4
另外,如果我们需要的只是检验正态性,不需要对均值和方差进行图示检验,期望分布定为标准正态分布就好了,此时只要考察点是否落在一条直线上,直线的截距为均值,斜率为标准差;如果要检验分布是否为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)( μ , σ 2 \mu,\sigma^2 μ,σ2已知),期望分布也可以直接定为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),这是考察的就是点是否落在 y = x y=x y=x上
下图来自Matlab官网的qqplot词条,稍微留意一下横纵坐标间距和起点都不同,可以认为它来自的总体满足正态性但绝非标准正态分布(有一说一官网词条的解释比乱搜清楚太多了):
至于为什么落在一条直线上就说明是正态的呢?这直观上很好理解,如果还想用数学辅助理解的话,可以这么考虑,直线上坐标
(
ϕ
−
1
(
p
)
,
F
−
1
(
p
)
)
(\phi^{-1}(p),F^{-1}(p))
(ϕ−1(p),F−1(p)),p是一个定义域在(0,1)区间上的变量,做变量替换:
{
p
=
ϕ
(
x
)
p
=
F
(
y
)
\left\{ \begin{aligned} & p=\phi(x) \\ &p=F(y) \end{aligned} \right.
{p=ϕ(x)p=F(y)
线性约束可以写作
y
=
a
x
+
b
y=ax+b
y=ax+b,从而有
F
(
a
x
+
b
)
=
p
=
ϕ
(
x
)
F(ax+b)=p=\phi(x)
F(ax+b)=p=ϕ(x),这和正态分布转换公式
F
(
σ
x
+
μ
)
=
ϕ
(
x
)
F(\sigma x+\mu)=\phi(x)
F(σx+μ)=ϕ(x)是等价的,得证#
另外还可以顺便得出以下结论:直线的截距为均值,斜率为标准差
注:
QQ图不局限于正态性检验,它还可以检验两个样本来自的未知总体分布是否相同
两个样本的样本量
n
1
,
n
2
n_1,n_2
n1,n2可以不同,分位数的个数取为
n
m
i
n
=
m
i
n
{
n
1
,
n
2
}
n_{min}=min\{n_1,n_2\}
nmin=min{n1,n2};当分布相同时,点位于y=x上,当分布之间有线性关系时,点位于直线上
PP图
写不动了PP图就简要介绍一些了><,和QQ图差不多,只是横纵坐标由分位数换成了累积概率,这就意味着横纵坐标的取值范围都落在0~1之间
说一下它是如何绘制的吧,回归这个式子:
F
(
x
)
=
p
F(x)=p
F(x)=p
(它还在输出.jpg)
其实第p分位数为x,就等价于取值为x时累积概率为p,所以给定样本数据x,只要分别取样本经验分布
F
n
(
x
)
F_n(x)
Fn(x)和期望分布
F
(
x
)
F(x)
F(x),就能通过上式得到两个p,将通过期望分布得到的p作为横坐标分量,通过样本经验分布得到的p作为纵坐标分量就可以描出散点图啦!点的个数即样本个数
一般QQ图使用得比较多,因为QQ图不仅能检验正态性,拟合出的直线的截距和斜率还能近似均值和方差
第一次写,有错误欢迎指出!
(才发现莫名其妙变成vip文章了,抱歉,已编辑修改权限)