Kruskal-Wallis检验

前言

在看论文时,常看到Kruskal-Wallis检验,却不知道它具体是一个什么样的检验,这篇文章主要介绍Kruskal-Wallis检验的检验方法,和检验目的,不涉及Kruskal-Wallis检验的证明。详情请看博客原文

原理介绍

Kruskal-Wallis检验是基于wilcox秩和检验发展而来的,其目的是检验不同分组之间中位数是否均相同。其原假设为 H 0 : M 1 = M 2 = ⋅ ⋅ ⋅ = M k H_0: M_1=M_2=\cdot \cdot \cdot =M_k H0:M1=M2==Mk 。其中, k 为分组数, M i M_i Mi为第 i 组样本总体的中位数。若拒绝原假设,则说明这k组之间的中位数不全相同,即这k组样本不全来自一个总体。Kruskal-Wallis检验是基于秩的非参数性检验对于样本的原分布没有要求。

Kruskal-Wallis构造的统计量为:

H = 12 N ( N − 1 ) ∑ i = 0 k R i 2 n i − 3 ( N + 1 ) ,   v = k − 1 H = \frac{12}{N(N-1)}\sum_{i=0}^{k} \frac{R_i^2}{n_i} - 3(N+1),\ v=k-1 H=N(N1)12i=0kniRi23(N+1), v=k1

H服从自由度为 v 的 χ 2 \chi^2 χ2分布,下表是变量解释:

n i : 第 i 组中所含有的样本数 ,   N : ∑ i = 0 k n i   ,   R i : 第 i 组中所有样本排秩的和 ,   v : 自由度 \begin{align} n_i : 第i组中所含有的样本数, \ N : \sum_{i=0}^{k} n_i \ , \ R_i: 第i组中所有样本排秩的和, \ v: 自由度 \end{align} ni:i组中所含有的样本数, N:i=0kni , Ri:i组中所有样本排秩的和, v:自由度

这里,简单解释一下什么是排秩的和。Kruskal-Wallis检验是不关注原样本的实际测量值,而是同Wlicox秩和检验一样关注每个样本的实际测量值在所有样本中的排名情况,然后根据排名进行检验。而 R i R_i Ri表示的是所有i组的样本的排名进行相加得到的值。注意,在赋排名时遇到同样的观测值,一般是将这几个同样观测值先排名,然后根据他们的排秩求均值,最后算出的均值作为他们新的排秩。

案例分析

下表是一项动物研究,研究者欲探究A,B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照,最后检测这59只小鼠的吞噬率。
请添加图片描述

在对实验各结果进行正态性检验以及方差齐性检验后,发现A,B菌组不服从正态分布。因此,可以采用Kruskal-Wallis进行检验。下面是检验步骤:

1. 检验假设

H 0 : 三个总体的分布相同,即三个处理组的吞噬率相同 H 1 : 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 α = 0.005 \begin{align} & H_0: 三个总体的分布相同,即三个处理组的吞噬率相同 \\\\ & H_1: 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 \\\\ & \alpha = 0.005 \end{align} H0:三个总体的分布相同,即三个处理组的吞噬率相同H1:三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同α=0.005

2.编秩

将各组样本混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬率为65的有3个,他们的秩次为32、33和34,取平均秩次为 ( 32 + 33 + 34 ) / 3 = 33 (32+33+34)/3 = 33 (32+33+34)/3=33

3. 求秩和

分别求将各组秩次相加求得秩和 R 1 , R 2 和 R 3 R_1,R_2和R_3 R1,R2R3

4. 计算统计量

H = 12 59 ( 59 + 1 ) ( 92 4 2 24 + 70 1 2 19 + 14 5 2 16 ) − 3 ( 59 + 1 ) = 32.72 H = \frac{12}{59(59+1)}(\frac{924^2}{24}+\frac{701^2}{19}+\frac{145^2}{16})-3(59+1)=32.72 H=59(59+1)12(249242+197012+161452)3(59+1)=32.72

5.确定拒绝域与p值

  1. 当k=3,每组例数 n i ≤ 5 n_i \le 5 ni5 ,则可通过查表来获得P值和拒绝域
  2. 当k>3,或每组例数 n i ≥ 5 n_i \ge 5 ni5,则 H 服从以 k-1 为自由度的卡方分布。可通过卡方分布确定P值和拒绝域

若相同秩次较多(如超过25%),则需考虑矫正H统计量,矫正公式如下:

H c = H c c = 1 − ∑ ( t j 3 − t j ) N 3 − N \begin{align} & H_c = \frac{H}{c} \\\\ & c= 1 - \frac{\sum (t_j^3-t_j)}{N^3-N} \end{align} Hc=cHc=1N3N(tj3tj

其中, t j t_j tj表示第 j 次相持时相同秩次的个数。本例中

c = 1 − ( 3 3 − 3 ) + ( 4 4 − 4 ) + ( 7 7 − 7 ) + ( 3 3 − 3 ) + ( 5 3 − 3 ) + ( 2 3 − 2 ) 5 9 3 − 59 = 0.997 H c = 32.72 / 0.997 = 32.818 \begin{align} & c = 1-\frac{(3^3-3)+(4^4-4)+(7^7-7)+(3^3-3)+(5^3-3)+(2^3-2)}{59^3-59} = 0.997 \\\\ & H_c = 32.72/0.997 = 32.818 \end{align} c=159359(333)+(444)+(777)+(333)+(533)+(232)=0.997Hc=32.72/0.997=32.818

计算自由度,v = k - 1 = 3 - 1 = 2 。因此 χ 0.005 , 2 2 = 10.60 < H c = 32.818 \chi ^2_{0.005,2} = 10.60 < H_c = 32.818 χ0.005,22=10.60<Hc=32.818,故拒绝原假设,P < 0.005。可以认为,不同菌种对小鼠巨噬细胞的吞噬率有所不同。


参考链接

[1] 理论介绍

[[2] 医学统计学8年制 颜虹编 第2版: 174-177]

[3] 博客原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值