正态性检验之QQ图与PP图

doyoo.C

已于 2023-11-02 13:51:45 修改

阅读量2.3w

点赞数 25

文章标签：学习

于 2022-04-16 17:37:19 首次发布

本文链接：https://blog.csdn.net/doyoo_C/article/details/124213063

版权

正态性检验方法有很多种，主要可以分为以下几类：

图示法	统计方法
正态概率图、频率直方图、PP图、QQ图	偏度峰度检验、皮尔逊卡方检验、K-S检验、W检验、EP检验、秩和检验、游程检验等非参检验

按理说图示法应该是最简单的方法，但大多本科统计学教材并不会涉及PP图和QQ图，上网搜会发现各有各的画法云里雾里，为了防止之后再看一次又乱了所以自己再整理了一下

QQ图

QQ图全称是Quantile-Quantile Plot，要理解QQ图的绘制首先要把握好分位数（Quantile）的概念：

分位数（分位点）

给定总体X，其概率分布函数为F(x)，若x满足
$F (x) = p$
则称x为第0.25分位数

四分位数=第0.25分位数=第25百分位数，我们平常接触的定义是四分位数和百分位数，在后续换成中间那种理解就可以了，例如对该总体，第0.25分位数为-3，也就是F(-3)=0.25

上面针对的是连续分布函数F存在的情况，在很多实际问题中这个总体分布是未知的，我们只能用样本推断，用得到样本经验分布来近似总体分布

假设总体X未知，但我们有一个容量为n的样本 $x_1,x_2,...,x_n)$ ，可以得到次序统计量 $x_{(1)},...,x_{(n)})$ ，并导出样本经验分布 $F_n(x)$ ：
$F_n(x)=\left\{ \begin{aligned} & 0 & x<x_{(1)} \\ & \frac{k}{n} & x_{(k)}\leq{x} <x_{(k+1)},k=1,...,n-1 \\ & 1 & x\geq x_{(n)} \end{aligned} \right.$
这个经验分布的形式直接，易于理解，但有缺陷，比如当x取到 $x_{(n)}$ 时，分布函数值就为1了，那是不是有种比 $x_{(n)}$ 大的样本值不可能存在的意思？所以通常情况下会对上述经验分布做一些修正，将 $\frac{k}{n}$ 做一些小改动，主要有以下几种改法：
$\frac{k-0.5}{n}; \frac{k}{n+1}; \frac{k-0.375}{n+0.25}$
在QQ图绘制时用的是第一种修正形式，在正态概率图绘制时则会用到第三种

此时我们考虑 $F_n(x)=p$ ，由于经验分布的非连续性，如果给定的p不在 $\{\frac{k-0.5}{n},k=1,...,n\}$ 中，是不能直接对应到x的

所以为了理解上的方便，在对样本设定分位数时，样本量多少就取多少个分位点，如样本量为n就有n个分位数，这样对于每个次序统计量 $x_{(i)}$ ，都可以确定它是第几分位数，同样地给定p求第p分位数能得到一个样本值 $x_{(i)}$ ，只要由下式通过 $i$ 建立起 $p$ 和 $x$ 的一一对应就好： $p_i=F_n(x_{(i)})=\frac{i-0.5}{n},i=1,...,n$

回到正态性检验QQ图上，它是散点图，横坐标为期望总体分布（正态性检验就是标准正态分布）的分位数，纵坐标为样本经验分布的分位数，如此一来一共有n个点，每个描的点坐标形式就是：
$(\phi^{-1}(p_i),x_{(i)})$
如果还觉得晕看个例子就好了：
样本为(2,6,4,7)，考虑 $i = 1$ ，就有 $p=\frac{1-0.5}{4}=0.125$ ，通过p可以确定标准正态分布的分位数（由 $p=\phi(x)$ 得到分位数 $x$ ，可以直接查表）和样本经验分布的分位数（由 $p=F_n(x)$ 得到 $x$ ）
当然，搞明白上面的关系可以发现样本经验分布的分位数可以直接由 $i$ 得到，即 $x_{(i)}$ ，在这里 $x_{(2)}=4$

另外，如果我们需要的只是检验正态性，不需要对均值和方差进行图示检验，期望分布定为标准正态分布就好了，此时只要考察点是否落在一条直线上，直线的截距为均值，斜率为标准差；如果要检验分布是否为 $N(\mu,\sigma^2)$ （ $\mu,\sigma^2$ 已知），期望分布也可以直接定为 $N(\mu,\sigma^2)$ ，这是考察的就是点是否落在 $y = x$ 上

下图来自Matlab官网的qqplot词条，稍微留意一下横纵坐标间距和起点都不同，可以认为它来自的总体满足正态性但绝非标准正态分布（有一说一官网词条的解释比乱搜清楚太多了）：

至于为什么落在一条直线上就说明是正态的呢？这直观上很好理解，如果还想用数学辅助理解的话，可以这么考虑，直线上坐标 $(\phi^{-1}(p),F^{-1}(p))$ ，p是一个定义域在（0，1）区间上的变量，做变量替换：
$\left\{ \begin{aligned} & p=\phi(x) \\ &p=F(y) \end{aligned} \right.$
线性约束可以写作 $y = a x + b$ ，从而有 $F(ax+b)=p=\phi(x)$ ，这和正态分布转换公式 $F(\sigma x+\mu)=\phi(x)$ 是等价的，得证#
另外还可以顺便得出以下结论：直线的截距为均值，斜率为标准差

注：

QQ图不局限于正态性检验，它还可以检验两个样本来自的未知总体分布是否相同
两个样本的样本量 $n_1,n_2$ 可以不同，分位数的个数取为 $n_{min}=min\{n_1,n_2\}$ ；当分布相同时，点位于y=x上，当分布之间有线性关系时，点位于直线上

PP图

写不动了PP图就简要介绍一些了＞＜，和QQ图差不多，只是横纵坐标由分位数换成了累积概率，这就意味着横纵坐标的取值范围都落在0~1之间
说一下它是如何绘制的吧，回归这个式子：
$F (x) = p$
（它还在输出.jpg)
其实第p分位数为x，就等价于取值为x时累积概率为p，所以给定样本数据x，只要分别取样本经验分布 $F_n(x)$ 和期望分布 $F (x)$ ，就能通过上式得到两个p，将通过期望分布得到的p作为横坐标分量，通过样本经验分布得到的p作为纵坐标分量就可以描出散点图啦！点的个数即样本个数