参考链接:
统计学与质量035 - 正态概率图 Q-Q分位数图 (Quantile- Quantile Plot)_哔哩哔哩_bilibili
Q-Q图全称Quantile-Quantile图,Q-Q图是用于评估两个数据集的分布相似程度的,若数据点分布在直线y=x附近,则两个数据集的分布类似。正态Q-Q图是Q-Q图的一种。
普通Q-Q图与正态Q-Q图的不同点在于普通Q-Q图的横坐标是未知数据集的分位数,正态Q-Q图的横坐标是标准正态分布的分位数,其他步骤都一样。
既然是分位数-分位数图,横坐标为理论的正态分布分位数,纵坐标为样本从小到大排序的实际数据。
1、如何确定实际数据对应的理论分位数呢?
首先要确定样本的实际数据在总体中对应的理论位置。
(1)最简单的方式:假设样本量为n,则样本中的数据点可以将总体划为n+1等份。此时累计分布函数(CDF,Cumulative Distribution Function)可表示为:
其中,n为样本量,k为样本从小到大排序的位次。
(2)修正方案:统计学家认为在抽样较少的情况下,抽样点按照分位数等概率间隔的出现是不合理的,实际情况应该是分布在两端的数据被抽到的概率非常小,中间抽到的概率比较高,于是给出了一些分位点位置的调整方案。常见方案如下:
通用公式可表示为:
2、为什么要确定CDF?
因为需要用CDF计算出样本的各个数据所定的累计概率,在利用累计概率和正态分布的概率密度函数,确定其对应的理论分位数。
3、如何确定理论分位数?
本次案例取CDF(a=0.3),excel计算步骤如下图:
4、绘制Q-Q图
(1)选择三列数据,插入散点图。
(2)绘制y=x标准线,选择“y=x标准线”系列,右键“添加趋势线”,将数据标记设置为“无边框”“无填充”
(3)添加横纵坐标轴标题,图表标题
(4)结论:数据点均匀分布在标准线两侧,基本符合正态分布