Kruskal-Wallis检验

前言

在看论文时,常看到Kruskal-Wallis检验,却不知道它具体是一个什么样的检验,这篇文章主要介绍Kruskal-Wallis检验的检验方法,和检验目的,不涉及Kruskal-Wallis检验的证明。详情请看博客原文

原理介绍

Kruskal-Wallis检验是基于wilcox秩和检验发展而来的,其目的是检验不同分组之间中位数是否均相同。其原假设为 H 0 : M 1 = M 2 = ⋅ ⋅ ⋅ = M k H_0: M_1=M_2=\cdot \cdot \cdot =M_k H0:M1=M2==Mk 。其中, k 为分组数, M i M_i Mi为第 i 组样本总体的中位数。若拒绝原假设,则说明这k组之间的中位数不全相同,即这k组样本不全来自一个总体。Kruskal-Wallis检验是基于秩的非参数性检验对于样本的原分布没有要求。

Kruskal-Wallis构造的统计量为:

H = 12 N ( N − 1 ) ∑ i = 0 k R i 2 n i − 3 ( N + 1 ) ,   v = k − 1 H = \frac{12}{N(N-1)}\sum_{i=0}^{k} \frac{R_i^2}{n_i} - 3(N+1),\ v=k-1 H=N(N1)12i=0kniRi23(N+1), v=k1

H服从自由度为 v 的 χ 2 \chi^2 χ2分布,下表是变量解释:

n i : 第 i 组中所含有的样本数 ,   N : ∑ i = 0 k n i   ,   R i : 第 i 组中所有样本排秩的和 ,   v : 自由度 \begin{align} n_i : 第i组中所含有的样本数, \ N : \sum_{i=0}^{k} n_i \ , \ R_i: 第i组中所有样本排秩的和, \ v: 自由度 \end{align} ni:i组中所含有的样本数, N:i=0kni , Ri:i组中所有样本排秩的和, v:自由度

这里,简单解释一下什么是排秩的和。Kruskal-Wallis检验是不关注原样本的实际测量值,而是同Wlicox秩和检验一样关注每个样本的实际测量值在所有样本中的排名情况,然后根据排名进行检验。而 R i R_i Ri表示的是所有i组的样本的排名进行相加得到的值。注意,在赋排名时遇到同样的观测值,一般是将这几个同样观测值先排名,然后根据他们的排秩求均值,最后算出的均值作为他们新的排秩。

案例分析

下表是一项动物研究,研究者欲探究A,B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照,最后检测这59只小鼠的吞噬率。
请添加图片描述

在对实验各结果进行正态性检验以及方差齐性检验后,发现A,B菌组不服从正态分布。因此,可以采用Kruskal-Wallis进行检验。下面是检验步骤:

1. 检验假设

H 0 : 三个总体的分布相同,即三个处理组的吞噬率相同 H 1 : 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 α = 0.005 \begin{align} & H_0: 三个总体的分布相同,即三个处理组的吞噬率相同 \\\\ & H_1: 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 \\\\ & \alpha = 0.005 \end{align} H0:三个总体的分布相同,即三个处理组的吞噬率相同H1:三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同α=0.005

2.编秩

将各组样本混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬率为65的有3个,他们的秩次为32、33和34,取平均秩次为 ( 32 + 33 + 34 ) / 3 = 33 (32+33+34)/3 = 33 (32+33+34)/3=33

3. 求秩和

分别求将各组秩次相加求得秩和 R 1 , R 2 和 R 3 R_1,R_2和R_3 R1,R2R3

4. 计算统计量

H = 12 59 ( 59 + 1 ) ( 92 4 2 24 + 70 1 2 19 + 14 5 2 16 ) − 3 ( 59 + 1 ) = 32.72 H = \frac{12}{59(59+1)}(\frac{924^2}{24}+\frac{701^2}{19}+\frac{145^2}{16})-3(59+1)=32.72 H=59(59+1)12(249242+197012+161452)3(59+1)=32.72

5.确定拒绝域与p值

  1. 当k=3,每组例数 n i ≤ 5 n_i \le 5 ni5 ,则可通过查表来获得P值和拒绝域
  2. 当k>3,或每组例数 n i ≥ 5 n_i \ge 5 ni5,则 H 服从以 k-1 为自由度的卡方分布。可通过卡方分布确定P值和拒绝域

若相同秩次较多(如超过25%),则需考虑矫正H统计量,矫正公式如下:

H c = H c c = 1 − ∑ ( t j 3 − t j ) N 3 − N \begin{align} & H_c = \frac{H}{c} \\\\ & c= 1 - \frac{\sum (t_j^3-t_j)}{N^3-N} \end{align} Hc=cHc=1N3N(tj3tj

其中, t j t_j tj表示第 j 次相持时相同秩次的个数。本例中

c = 1 − ( 3 3 − 3 ) + ( 4 4 − 4 ) + ( 7 7 − 7 ) + ( 3 3 − 3 ) + ( 5 3 − 3 ) + ( 2 3 − 2 ) 5 9 3 − 59 = 0.997 H c = 32.72 / 0.997 = 32.818 \begin{align} & c = 1-\frac{(3^3-3)+(4^4-4)+(7^7-7)+(3^3-3)+(5^3-3)+(2^3-2)}{59^3-59} = 0.997 \\\\ & H_c = 32.72/0.997 = 32.818 \end{align} c=159359(333)+(444)+(777)+(333)+(533)+(232)=0.997Hc=32.72/0.997=32.818

计算自由度,v = k - 1 = 3 - 1 = 2 。因此 χ 0.005 , 2 2 = 10.60 < H c = 32.818 \chi ^2_{0.005,2} = 10.60 < H_c = 32.818 χ0.005,22=10.60<Hc=32.818,故拒绝原假设,P < 0.005。可以认为,不同菌种对小鼠巨噬细胞的吞噬率有所不同。


参考链接

[1] 理论介绍

[[2] 医学统计学8年制 颜虹编 第2版: 174-177]

[3] 博客原文

  • 1
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Kruskal-Wallis检验是一种非参数检验方法,用于比较三个或更多组的中位数是否相等。在R语言中,可以使用kruskal.test()函数进行Kruskal-Wallis检验。该函数的语法如下: kruskal.test(formula, data) 其中,formula是一个公式对象,用于指定要比较的变量和分组变量;data是一个数据框,包含要比较的变量和分组变量。 例如,假设我们有一个数据框df,其中包含一个数值变量y和一个分组变量group,我们可以使用以下代码进行Kruskal-Wallis检验kruskal.test(y ~ group, data = df) 该函数将返回一个Kruskal-Wallis检验的结果,包括统计量、自由度和p值等信息。如果p值小于显著性水平(通常为.05),则可以拒绝原假设,即认为不同组的中位数不相等。 ### 回答2: Kruskal-Wallis检验是用于比较不同组之间连续变量的中位数是否相等的一种非参数检验方法。对于不满足正态分布和方差齐性条件的数据,Kruskal-Wallis检验是一种有效的分析方法。本文将介绍R语言中执行Kruskal-Wallis检验的方法。 在R语言中进行Kruskal-Wallis检验需要使用kruskal.test()函数。该函数的语法为:kruskal.test(formula, data=NULL) 。其中,formula是一个公式对象,而data是一个数据框或矩阵。首先,要将数据按照研究问题分成不同的组,然后在公式对象中指定各组变量。 示例代码: 假设我们有一个数据集,包含3个组:group1、group2和group3,每个组中均有10个观测值。我们想比较这3个组的中位数是否相等。 # 首先,生成数据 set.seed(123) # 设定随机数种子 group1 <- rnorm(10, 0, 1) group2 <- rnorm(10, 0.5, 1) group3 <- rnorm(10, 1, 1) data <- data.frame(c(group1, group2, group3), rep(c("Group 1", "Group 2", "Group 3"), each=10)) # 对数据进行Kruskal-Wallis检验 kruskal.test(c(group1, group2, group3) ~ rep(c("Group 1", "Group 2", "Group 3"), each=10), data=data) 下面解释上面代码具体的意思: 1.首先,我们用set.seed()函数设定一个随机数种子。这是为了确保每次生成的随机数相同,以便于调试和复现结果。 2.然后,我们使用rnorm()函数生成三个组的随机数,分别表示group1、group2和group3的变量。这里每个组都有10个观测值。 3.将三个组的数据合并成一个向量,并使用data.frame()函数将其转换为数据框。在此过程中,我们使用rep()函数来指定每个观测值所属的组("Group 1"、"Group 2"和"Group 3")。 4.最后,我们使用kruskal.test()函数进行Kruskal-Wallis检验。在公式对象中,我们使用~符号来分隔变量和组信息,并使用data参数将数据框传递给函数。执行代码后,R将输出Kruskal-Wallis检验的结果。 需要注意的是,在使用kruskal.test()函数时,变量和组信息应该放在~符号的两边,且组信息中的每个组必须包含相同数量的观测值。如果不满足这些条件,函数将无法正确执行。 结论:执行Kruskal-Wallis检验时,我们需要将数据按照研究问题分成不同的组,并使用R语言中的kruskal.test()函数进行分析。该函数不仅可以计算Kruskal-Wallis统计量和p值,还可以输出检验结果的一些额外信息。 ### 回答3: Kruskal-Wallis检验是一种非参数性的检验方法,用于比较两个或多个组之间的中位数是否相同。其原假设为所有组的中位数相同,备择假设为至少有一组的中位数与其他组不同。 在R语言中,进行Kruskal-Wallis检验的函数为kruskal.test。该函数的输入为一个数据向量和一个分组变量,其中数据向量为待检验的数值变量,分组变量为相应的分组指示变量。使用方法为: kruskal.test(数据向量 ~ 分组变量) 例如,以下是一个基本的使用例子: data <- c(5, 6, 7, 4, 2, 3, 8, 6, 1) group <- c("A", "B", "A", "C", "B", "C", "A", "B", "C") kruskal.test(data ~ group) 输出的结果包括统计量(H值)、自由度、p值等信息,可以帮助我们判断是否拒绝原假设。如果p值小于显著性水平(通常为0.05),则可以拒绝原假设,认为组间至少有一组的中位数与其他组不同。 需要注意的是,kruskal.test函数默认的检验类型为两侧检验,也就是检验所有与其他组不同的组,所以p值通常是双尾的。如果需要进行单侧检验,则可以采用wilcox.test函数等其他方法。 总之,利用R语言进行Kruskal-Wallis检验,可以方便地比较多个组之间的差异,并判断是否存在显著性差异。同时,R语言提供了多种分析方法和可视化工具,可以更加深入地分析数据并得出结论。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值