SPSS实现Fleiss Kappa与分析（也可利用公式计算）

最新推荐文章于 2025-05-11 02:01:02 发布

季商二三

最新推荐文章于 2025-05-11 02:01:02 发布

阅读量4.5k

点赞数 5

文章标签：算法 python

本文链接：https://blog.csdn.net/m0_73750670/article/details/132449320

版权

本文介绍了机器学习中数据集构建时标注一致性的重要性，并展示了如何在SPSS中使用FleissKappa评估多个标注者的一致性。通过实例和公式计算，解释了Kappa系数的应用以及统计显著性的判断。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、简单介绍

机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程，一份数据集往往由多位标注员共同完成，不同标注员对数据的理解很容易存在偏差，这极大程度上会影响数据集的一致性，从而限制算法的性能。因此在构建数据集的标注过程中，大多数构建数据集的工作都会对标注员之间的标注一致性进行评估，以保证数据集的质量。

在统计学中，标注一致性用来评价独立观察者之间对同一现象进行评估时的一致程度。如果多位标注员在相同的数据中达到符合要求的一致程度，那么我们可以认为这些标注员能够独立负责各自的数据标注工作，由他们的标注结果所构成的数据集是符合一致性要求的。

Fleiss Kappa用于对比两项以上的一致性，如果研究的数据为对比三项或以上的结果一致性（比如此例中一共有14位评估者），此时使用Fleiss Kappa。

我在网上搜SPSS实现Fleiss Kappa，出现的都只是用SPSS计算普通Kappa或者Python实现Fleiss Kappa，而不是SPSS实现Fleiss Kappa，因此想发布这篇文章，告诉大家如何计算Fleiss Kappa。

注：SPSS26以前的版本不能实现Fleiss Kappa，只有新版本可以。本文用中文版本演示，如果您的是英文版本，找到对应位置即可。

2、SPSS实例

假设有14个评估者分别对十个样本进行评估，评估等级分别是A-E，评估完得到如下表格：
在这里插入图片描述
依次点击“分析”——“刻度”——“可靠性分析”，如下图：

把所有的评估者变量放入“评级”的框中，如下图：

点击“统计”按钮，勾选“显示各个类别的一致性”，如下图：

然后点击“继续”，进而点击“确定”，便得到如下结果：
在这里插入图片描述

3、分析

使用Kappa系数衡量一致性水平，Kappa系数取值在0～1之间，通常情况下：
Kappa<0.2则说明一致性程度较差；
0.2~0.4之间说明一致性程度一般；
0.4~0.6之间说明一致性程度中等；
0.6~0.8之间说明一致性程度较强；
0.8~1.0之间说明一致性程度很强。

该实例Kappa值为0.210，表明具有一般水平的一致性。

可以看出，p值报告为0. 000，p<0.0005。如果p<0.05，则具有统计学意义，并且Fleiss ’ kappa系数与0具有统计学意义的差异。如果p>0.05，结果没有统计学意义，并且Fleiss ’ kappa系数与0没有统计学差异。在本例中，p=0.000，意味着kappa ( κ )系数在统计上显著异于0。

但是SPSS统计说明’ P值’是’0.000 '，这并不意味着显著性水平实际上为零。在可能的情况下，最好声明实际的p值，而不是大于/小于p值的语句(例如, p =0.023而不是p <0.05 ,或者p =0.092而不是p >0.05 )。通过这种方式，可以传达更多关于结果的统计显著性水平的信息。

如果想要更多深入的分析，请查阅其他文章。

3、公式计算

其次，针对这个例子，Fleiss Kappa还可以用公式进行计算：假设有N条数据进行多分类任务，每条数据被标注了n次，k为类别数量。标注数据的索引为i=1,2，…，N，类别的索引为j=1,2，…，k，那么令nij 表示将第i条数据被标注为类别j的次数。Pj 是类别j 的联合边缘分布。
在这里插入图片描述

依然是14位评估员对十条数据进行标注，一共五个等级A-E，但是现在每个单元格表示此类数据被评定为该等级的次数，也就是每一行的数据之和为14，如下表：

利用上述公式带入计算，

得到的计算结果与SPSS计算结果一致。