Cohen’s Kappa 是一种用于衡量分类器一致性和可靠性的重要统计指标,特别适用于两个评估者(或观察者)对同一组样本进行分类的情况。它可以判断两位评估者在多大程度上达成了一致,同时考虑到纯粹随机一致的可能性。
1. 定义与公式
Cohen’s Kappa (
κ
\kappa
κ) 是在观察到的一致性和预期的一致性之间进行衡量。其计算公式为:
κ
=
P
o
−
P
e
1
−
P
e
\kappa = \frac{P_o - P_e}{1 - P_e}
κ=1−PePo−Pe
其中:
- P o P_o Po 是观察到的比例一致性,即评估者在所有样本上达成一致的比例。
- P e P_e Pe 是预期的随机一致性比例,即在假设评估者独立且随机进行分类的情况下,他们达成一致的概率。
2. 如何计算
假设我们有一个2x2的混淆矩阵,行和列分别代表两个评估者的分类结果:
评估者B = Positive | 评估者B = Negative | |
---|---|---|
评估者A = Positive | a a a (True Positive) | b b b (False Negative) |
评估者A = Negative | c c c (False Positive) | d d d (True Negative) |
- P o = a + d a + b + c + d P_o = \frac{a + d}{a + b + c + d} Po=a+b+c+da+d 表示两位评估者在正类和负类上达成一致的比例。
- P e = ( a + b ) ( a + c ) + ( c + d ) ( b + d ) ( a + b + c + d ) 2 P_e = \frac{(a + b)(a + c) + (c + d)(b + d)}{(a + b + c + d)^2} Pe=(a+b+c+d)2(a+b)(a+c)+(c+d)(b+d) 表示在随机分配下,两个评估者达成一致的概率。
3. Kappa值的解释
Cohen’s Kappa 的值范围为 -1 到 1:
- κ = 1 \kappa = 1 κ=1:完全一致,表示两个评估者的分类结果完全相同。
- κ = 0 \kappa = 0 κ=0:一致性与随机猜测相同,即评估者之间没有比随机更好的一致性。
- κ < 0 \kappa < 0 κ<0:一致性低于随机猜测,表明评估者的分类结果有明显的分歧。
通常,Kappa值的解释标准如下:
- 0.01 - 0.20:轻微一致性
- 0.21 - 0.40:一般一致性
- 0.41 - 0.60:中度一致性
- 0.61 - 0.80:良好一致性
- 0.81 - 1.00:非常好的一致性
4. Kappa的应用场景
- 医学诊断:例如,用于衡量医生在诊断相同病例时的一致性。
- 机器学习分类模型评估:在多分类任务中,Cohen’s Kappa 被用于评估两个模型或同一个模型在不同时间点的分类一致性。
- 心理学和社会科学:在调查或问卷中,不同调查员对相同被试的评分一致性可以通过Kappa来评估。
5. 举个例子
假设有两个评估者(A和B)对100个样本进行分类,其中评估结果如下:
- 两位评估者都认为50个样本为正类(True Positive)。
- 两位评估者都认为30个样本为负类(True Negative)。
- 评估者A认为10个样本为正类,但评估者B认为它们为负类(False Positive)。
- 评估者A认为10个样本为负类,但评估者B认为它们为正类(False Negative)。
计算得到:
P
o
=
50
+
30
100
=
0.8
P_o = \frac{50 + 30}{100} = 0.8
Po=10050+30=0.8
P
e
=
(
60
×
60
)
+
(
40
×
40
)
10
0
2
=
0.52
P_e = \frac{(60 \times 60) + (40 \times 40)}{100^2} = 0.52
Pe=1002(60×60)+(40×40)=0.52
因此,Cohen’s Kappa 为:
κ
=
0.8
−
0.52
1
−
0.52
=
0.28
0.48
≈
0.583
\kappa = \frac{0.8 - 0.52}{1 - 0.52} = \frac{0.28}{0.48} \approx 0.583
κ=1−0.520.8−0.52=0.480.28≈0.583
这个Kappa值表示两位评估者之间有中度一致性。
6. Cohen’s Kappa的优缺点
- 优点:能够考虑到随机一致性的可能性,因此比简单的准确率更准确。
- 缺点:当分类类别非常不平衡时,Kappa值可能偏低,即使评估者在多数类别上已经高度一致。
Cohen’s Kappa 是一个有用的指标,可以帮助我们更客观地评估两位或两个系统在相同任务上的一致性,尤其是在分类或评估任务中。