总体分布未知,或者知之甚少时,利用已知样本数据对总体分布形态做出推断的方法,即是非参数检验。非参数检验主要利用样本数据之间的大小比较和大小顺序,对两个或者多个样本所属的总体分布是否相同进行建议,而不会对总体分布的参数,例如平均数,标准差进行统计推断。
非参数检验的原理都是一样的:将样本数据进行各种转换,例如排序求秩,求秩和,求均值,求概率等等,将之转换为符合正态分布或者卡方分布等的统计量数据,最后对这些统计量数据进行相应的分布检验,以得到最终的检验结果。进行非参数检验时需要根据样本的特点,例如单样本还是独立样本,或者是相关样本等等来选择合适的检验方法,下面描述了各种情况下的检验方法及其原理:
单样本情况:根据一组样本的信息对某个总体分布或者抽样过程是否随机进行判断,
- 判断样本分布是否与总体分布一致
- 卡方检验,必须选择一个分类数据进行检验
- 二项分布检验
- 如果选择的是分类数据,如果分类数据不能二分,那么将无法计算
- 如果选择的非分类数据,那么可以选择以特定值二分,或者中位数二分进行检验
- 判断抽样是否随机
- 游程检验
- 原理:将X和Y样本混合排序,将来自X的记为0,来自Y记为1,连续出现0记为0的游程,游程中出现0的个数记为游程长度,通过这些值构造统计量Z,按照正态分布计算Z的的p值进行判断
- 游程检验
- 比较中位数,假设中位数
- Wilcoxon符号秩检验
- 检查样本是否符合特定分布
- 单样本K-S检验(针对连续数据),原理:计算各样本观测值在理论分布中出现的累计概率值F(x)和实际概率值S(x),求D=max(|S(X)-F(x)|),小样本情况下D要服从Kolmogorov分布,大样本下n的D次根近似服从K(x)分布
两独立样本情况:通过两组样本的分析,判断它们所属的总体是否分布一致
- 检验两总体均值是否相等
- 曼-惠特尼U检验
- 原理:两组数据混合排秩,再将两组数据秩的平均值比较,它们差异不应该太大
- 曼-惠特尼U检验
- 检验是否产生极端反应
- Moses极端反应检验,场景:预期试验条件将以一个方向影响某些受试者,以另一个方向影响另一些受试者时采用。
- 原理:将X定义为实验组,Y定义为对照组,把二者混合,评分,升序排列,计算Y的得分跨度S,如果S比较大,说明存在极端反应
- 设置要点:必须选择二分类数据进行分析
- Moses极端反应检验,场景:预期试验条件将以一个方向影响某些受试者,以另一个方向影响另一些受试者时采用。
- 检验总体分布是否相同
- K-S Z检验
- 原理:两组样本混合升序排列,分别计算两组样本秩的累计频数和累计频率,计算两组累计频率的差,得到秩的差值序列,检验统计量D
- Wald-Wolfowitz游程检验
- 原理:X,Y样本混合按照评分升序排列,确定序列中游程数量r,当两总体分布相同时,观察值混合均匀,游程数量较大,构造Z统计量,那么Z应该服从N(0,1)
- K-S Z检验
多独立样本非参数检验
- 检验多个独立样本中位数是否存在差异
- 中位数检验
- 原理:将k组样本混合,计算公共中位数,然后求每组样本中大于或者小于中位数的个案个数,最后使用卡方检验来判断它们是否互相独立
- 中位数检验
- 检验多个独立样本的总体分布是否相同
- Kruskal-Wallis检验
- 原理:将多个样本混合按照升序排列,得到每个观察值的秩,求秩的平均值,如果各组样本的平均秩与混合样本的平均秩大体相等,则认为分布无显著差异,统计量K-W符合卡方分布
- Kruskal-Wallis检验
- 检验多组独立样本的观察值,判断来自多个的多个总体在指定的指标值下的观察值是否呈现上升或者下降趋势
- Jonckheere-Terpstra检验
两相关样本非参数检验:从一个对象中测得两个或者多个指标,一个指标对其它指标产生影响,则不独立,具有相关性。
- McNemar变化显著性检验
- 适用:适合先后匹配性设计,每个研究对象以自身作为参照物,研究试验前后变化的有效程度
- 原理:编写试验前,试验后关于变化的列联表,使用卡方进行检验
- 符号检验
- 适用:收集到的数据测量水平为间隔量表或者比例量表
- 原理:去掉观察值相同的样本对,将实验组样本观察值减去对照组样本观察值,差值为正记为+,为负记为-,计算+,-数量k和n-k,如果分布相同,那么k和n-k基本相等
- Wilcoxon符合秩检验
- 适用:与符号检验一样,也用于判断两个配对总体的分布是否存在显著差异,相比更能充分利用样本信息
- 原理:去掉观察值相同的样本对,将实验组样本观察值减去对照组样本观察值,差值为记做+,差值为负记做-,将差值绝对值按照升序排列,求出秩,得到正秩合W+和负秩合W-,如果W+和W-相差较小,说明分布基本相同
多相关样本非参数检验
- Friedman双向评秩方差检验
- 适用:多个相关样本分布是否相同检验时,如果数据测量水平为顺序表,间隔表,比例量表时使用
- 原理:样本数为n,指标数为k,观察值为x,从行出发,每个样本每个指标观察值按照升序排列,计算观察值的秩Rij,再计算k个指标的秩和,秩和相差比较小说明分布没有差异。即是对秩和做卡方检验
- Kendall-W协同系数检验
- 适用:对多个样本多个指标得分是否存在一致性进行检验
- 原理:样本数为n,指标数为k,观察值为x,从行出发,对所有样本在每个指标上的观察值按照升序排列,计算观察值的秩Rij,计算每个样本的秩和Rj,如果完全符合,Rj(j=1,2,.。。n)应该为k,2k....nk,否则Rj应该十分接近,每个Rj与平均值相差较小。按照W协同系数为统计量,k(n-1)W应该符合自由度为n-1的卡方分布
- Cochran-Q检验
- 适用:检验三组或者三组以上相关样本分布是否存在显著性差异,当观测水平为称名量表或者二值顺序量表时,特别适用
- 原理:以二分评价为例,1为满意,2为不满意,样本数为n,指标数为k,n个样本在k个指标没有显著差异时,1和0应该随机分布在各行各列,即是各行各列中1的数量应该相同。构造统计量Q,Q服从自由度为k-1的卡方分布