写在前面:
一致性检验的目的在于比较不同方法得到的结果是否具有一致性。
比如采集的样本和真实样本是否一致,比如两种抽样方法得到的两个样本集是否一致,比如两种不同超参数设置下的聚类方法得到的聚类结果是否一致,等等
检验一致性的方法有很多比如:Kappa检验、ICC组内相关系数、Kendall W协调系数等。每种方法的功能侧重,数据要求都略有不同:
Kappa系数检验,适用于两次数据(方法)之间比较一致性,比如两位医生的诊断是否一致,两位裁判的评分标准是否一致等。
ICC组内相关系数检验,用于分析多次数据的一致性情况,功能上与Kappa系数基本一致。ICC分析定量或定类数据均可;但是Kappa一致性系数通常要求数据是定类数据。
Kendall W协调系数,是分析多个数据之间关联性的方法,适用于定量数据,尤其是定序等级数据。
(1)Kappa检验
Kappa检验分为简单Kappa检验和加权Kappa检验,两者的区别主要在于:
- 如果研究数据是绝对的定类数据(比如阴性、阳性),此时使用简单Kappa系数;
- 如果数据为等级式定类数据(比如轻度,中度,重度;也或者不同意,中立,同意);此时可使用加权(线性)Kappa系数。
应用举例
两个医生分别对于50个病例进行MRI检查(MRI检查诊断共分三个等级,分别是轻度,中度和重度),对比两名医生检查结果诊断的一致性水平。
(1表示轻度,2表示中度,3表示重度)
根据上表可知,两位医生对于MRI检查诊断结论具有较强的一致性(Kappa值=0.74)。
(2)ICC组内相关系数
ICC组内相关系数可用于研究评价一致性,评价信度,测量复测信度(重测信度)等。相对于Kappa系数,ICC组内相关系数的适用范围更广,适用于定量或者定类数据,而且可针对双样本或者多样本进行分析一致性。但ICC的分析相对较为复杂,通常需要从三个方面进行分析并且选择最优的ICC模型;分别是模型选择,计算类型和度量标准。
ICC六类细分
- 模型选择上,需要考虑是否将当前结论延伸推广到其它研究中,也或者考虑是否为研究数据的绝对相等程度。
- 计算类型上,如果不需要考虑系统误差则使用“一致性”,如果需要考虑系统误差则使用“绝对一致性”。
- 度量标准上,如果是原始数据则使用“单一度量”,如果是计算后的数据,则使用“平均度量”。
案例举例
3个医生对于10个术后病人进行术后恢复评分;现在希望通过分析研究3个医生的打分一致性水平情况,使用ICC组内相关系数进行研究。录入后的ICC数据格式如下:
本次使用的是原始数据非计算后数据,因而使用单一度量标准结果即ICC(C,1),ICC组内相关系数=0.921,说明3位医生的评价具有高度一致性,也说明此次3名医生给出的打分有着非常高的可信性。
(3)Kendall协调系数
Kendall协调系数,也称作Kendall和谐系数,或Kendall一致性系数。通常用于比较多组数据的一致性程度。
案例举例
4个评委对于10个选手进行评分,最低为1分,最高为10分;现在希望通过分析研究4个评委的打分一致性情况。
从上表可以看出:协调系数为0.853(P<0.01),大于0.8,说明4个评委的评分结果具有很强的一致性。
其他说明
1、ICC的适用场景最多,包括定量或定类数据,同时可针对多相关样本进行一致性分析;而Kappa一致性系数主要针对2个相关数据且针对定类数据进行一致性分析;Kendall W协调系数适用于定量数据,且更多倾重于数据关联性研究。
2、分析前要注意数据的格式,每种方法录入的数据格式都不大一样,一定要整理成正确的数据格式再分析。