SPSS实现Fleiss Kappa与分析(也可利用公式计算)

1、简单介绍

机器学习中涉及新数据集发布的论文通常会描述数据集的构建过程,一份数据集往往由多位标注员共同完成,不同标注员对数据的理解很容易存在偏差,这极大程度上会影响数据集的一致性,从而限制算法的性能。因此在构建数据集的标注过程中,大多数构建数据集的工作都会对标注员之间的标注一致性进行评估,以保证数据集的质量。

在统计学中,标注一致性用来评价独立观察者之间对同一现象进行评估时的一致程度。如果多位标注员在相同的数据中达到符合要求的一致程度,那么我们可以认为这些标注员能够独立负责各自的数据标注工作,由他们的标注结果所构成的数据集是符合一致性要求的

Fleiss Kappa用于对比两项以上的一致性,如果研究的数据为对比三项或以上的结果一致性(比如此例中一共有14位评估者),此时使用Fleiss Kappa。

我在网上搜SPSS实现Fleiss Kappa,出现的都只是用SPSS计算普通Kappa或者Python实现Fleiss Kappa,而不是SPSS实现Fleiss Kappa,因此想发布这篇文章,告诉大家如何计算Fleiss Kappa。

注:SPSS26以前的版本不能实现Fleiss Kappa,只有新版本可以。本文用中文版本演示,如果您的是英文版本,找到对应位置即可。

2、SPSS实例

假设有14个评估者分别对十个样本进行评估,评估等级分别是A-E,评估完得到如下表格:
在这里插入图片描述
依次点击“分析”——“刻度”——“可靠性分析”,如下图:
在这里插入图片描述
把所有的评估者变量放入“评级”的框中,如下图:
在这里插入图片描述
点击“统计”按钮,勾选“显示各个类别的一致性”,如下图:
在这里插入图片描述
然后点击“继续”,进而点击“确定”,便得到如下结果:
在这里插入图片描述

3、分析

使用Kappa系数衡量一致性水平,Kappa系数取值在0~1之间,通常情况下:
Kappa<0.2则说明一致性程度较差;
0.2~0.4之间说明一致性程度一般;
0.4~0.6之间说明一致性程度中等;
0.6~0.8之间说明一致性程度较强;
0.8~1.0之间说明一致性程度很强。

该实例Kappa值为0.210,表明具有一般水平的一致性。

可以看出,p值报告为0. 000,p<0.0005。如果p<0.05,则具有统计学意义,并且Fleiss ’ kappa系数与0具有统计学意义的差异。如果p>0.05,结果没有统计学意义,并且Fleiss ’ kappa系数与0没有统计学差异。在本例中,p=0.000,意味着kappa ( κ )系数在统计上显著异于0。

但是SPSS统计说明’ P值’是’0.000 ',这并不意味着显著性水平实际上为零。在可能的情况下,最好声明实际的p值,而不是大于/小于p值的语句(例如, p =0.023而不是p <0.05 ,或者p =0.092而不是p >0.05 )。通过这种方式,可以传达更多关于结果的统计显著性水平的信息。

如果想要更多深入的分析,请查阅其他文章。

3、公式计算

其次,针对这个例子,Fleiss Kappa还可以用公式进行计算:假设有N条数据进行多分类任务,每条数据被标注了n次,k为类别数量。标注数据的索引为i=1,2,…,N,类别的索引为j=1,2,…,k,那么令nij 表示将第i条数据被标注为类别j的次数。Pj 是类别j 的联合边缘分布。
在这里插入图片描述
在这里插入图片描述
依然是14位评估员对十条数据进行标注,一共五个等级A-E,但是现在每个单元格表示此类数据被评定为该等级的次数,也就是每一行的数据之和为14,如下表:
在这里插入图片描述
利用上述公式带入计算,
在这里插入图片描述
得到的计算结果与SPSS计算结果一致。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值