前言
在看论文时,常看到Kruskal-Wallis检验,却不知道它具体是一个什么样的检验,这篇文章主要介绍Kruskal-Wallis检验的检验方法,和检验目的,不涉及Kruskal-Wallis检验的证明。详情请看博客原文
原理介绍
Kruskal-Wallis检验是基于wilcox秩和检验发展而来的,其目的是检验不同分组之间中位数是否均相同。其原假设为 H 0 : M 1 = M 2 = ⋅ ⋅ ⋅ = M k H_0: M_1=M_2=\cdot \cdot \cdot =M_k H0:M1=M2=⋅⋅⋅=Mk 。其中, k 为分组数, M i M_i Mi为第 i 组样本总体的中位数。若拒绝原假设,则说明这k组之间的中位数不全相同,即这k组样本不全来自一个总体。Kruskal-Wallis检验是基于秩的非参数性检验对于样本的原分布没有要求。
Kruskal-Wallis构造的统计量为:
H = 12 N ( N − 1 ) ∑ i = 0 k R i 2 n i − 3 ( N + 1 ) , v = k − 1 H = \frac{12}{N(N-1)}\sum_{i=0}^{k} \frac{R_i^2}{n_i} - 3(N+1),\ v=k-1 H=N(N−1)12i=0∑kniRi2−3(N+1), v=k−1
H服从自由度为 v 的 χ 2 \chi^2 χ2分布,下表是变量解释:
n i : 第 i 组中所含有的样本数 , N : ∑ i = 0 k n i , R i : 第 i 组中所有样本排秩的和 , v : 自由度 \begin{align} n_i : 第i组中所含有的样本数, \ N : \sum_{i=0}^{k} n_i \ , \ R_i: 第i组中所有样本排秩的和, \ v: 自由度 \end{align} ni:第i组中所含有的样本数, N:i=0∑kni , Ri:第i组中所有样本排秩的和, v:自由度
这里,简单解释一下什么是排秩的和。Kruskal-Wallis检验是不关注原样本的实际测量值,而是同Wlicox秩和检验一样关注每个样本的实际测量值在所有样本中的排名情况,然后根据排名进行检验。而 R i R_i Ri表示的是所有i组的样本的排名进行相加得到的值。注意,在赋排名时遇到同样的观测值,一般是将这几个同样观测值先排名,然后根据他们的排秩求均值,最后算出的均值作为他们新的排秩。
案例分析
下表是一项动物研究,研究者欲探究A,B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照,最后检测这59只小鼠的吞噬率。
在对实验各结果进行正态性检验以及方差齐性检验后,发现A,B菌组不服从正态分布。因此,可以采用Kruskal-Wallis进行检验。下面是检验步骤:
1. 检验假设
H 0 : 三个总体的分布相同,即三个处理组的吞噬率相同 H 1 : 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 α = 0.005 \begin{align} & H_0: 三个总体的分布相同,即三个处理组的吞噬率相同 \\\\ & H_1: 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 \\\\ & \alpha = 0.005 \end{align} H0:三个总体的分布相同,即三个处理组的吞噬率相同H1:三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同α=0.005
2.编秩
将各组样本混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬率为65的有3个,他们的秩次为32、33和34,取平均秩次为 ( 32 + 33 + 34 ) / 3 = 33 (32+33+34)/3 = 33 (32+33+34)/3=33。
3. 求秩和
分别求将各组秩次相加求得秩和 R 1 , R 2 和 R 3 R_1,R_2和R_3 R1,R2和R3。
4. 计算统计量
H = 12 59 ( 59 + 1 ) ( 92 4 2 24 + 70 1 2 19 + 14 5 2 16 ) − 3 ( 59 + 1 ) = 32.72 H = \frac{12}{59(59+1)}(\frac{924^2}{24}+\frac{701^2}{19}+\frac{145^2}{16})-3(59+1)=32.72 H=59(59+1)12(249242+197012+161452)−3(59+1)=32.72
5.确定拒绝域与p值
- 当k=3,每组例数 n i ≤ 5 n_i \le 5 ni≤5 ,则可通过查表来获得P值和拒绝域
- 当k>3,或每组例数 n i ≥ 5 n_i \ge 5 ni≥5,则 H 服从以 k-1 为自由度的卡方分布。可通过卡方分布确定P值和拒绝域
若相同秩次较多(如超过25%),则需考虑矫正H统计量,矫正公式如下:
H c = H c c = 1 − ∑ ( t j 3 − t j ) N 3 − N \begin{align} & H_c = \frac{H}{c} \\\\ & c= 1 - \frac{\sum (t_j^3-t_j)}{N^3-N} \end{align} Hc=cHc=1−N3−N∑(tj3−tj)
其中, t j t_j tj表示第 j 次相持时相同秩次的个数。本例中
c = 1 − ( 3 3 − 3 ) + ( 4 4 − 4 ) + ( 7 7 − 7 ) + ( 3 3 − 3 ) + ( 5 3 − 3 ) + ( 2 3 − 2 ) 5 9 3 − 59 = 0.997 H c = 32.72 / 0.997 = 32.818 \begin{align} & c = 1-\frac{(3^3-3)+(4^4-4)+(7^7-7)+(3^3-3)+(5^3-3)+(2^3-2)}{59^3-59} = 0.997 \\\\ & H_c = 32.72/0.997 = 32.818 \end{align} c=1−593−59(33−3)+(44−4)+(77−7)+(33−3)+(53−3)+(23−2)=0.997Hc=32.72/0.997=32.818
计算自由度,v = k - 1 = 3 - 1 = 2 。因此 χ 0.005 , 2 2 = 10.60 < H c = 32.818 \chi ^2_{0.005,2} = 10.60 < H_c = 32.818 χ0.005,22=10.60<Hc=32.818,故拒绝原假设,P < 0.005。可以认为,不同菌种对小鼠巨噬细胞的吞噬率有所不同。
参考链接
[[2] 医学统计学8年制 颜虹编 第2版: 174-177]