加权二次kappa(quadratic weighted kappa,QWK)是一种常用于评估分类模型性能的指标,特别适用于评估类别之间存在顺序关系的情况。它基于混淆矩阵(confusion matrix)的概念,通过比较实际观察到的分类和预测的分类之间的一致性来度量模型的预测能力。
原理解释:
-
混淆矩阵: 混淆矩阵是一个表格,用于显示分类模型预测结果和实际类别之间的关系。对于分类问题,它将实际类别和预测类别之间的关系表示为一个矩阵。例如,对于6个类别的问题,混淆矩阵的大小为6x6,其中每个元素(i, j)表示实际类别为i但模型预测为j的样本数量。
-
加权矩阵(Weights Matrix): 加权二次kappa使用一个加权矩阵来处理类别之间的误差。这个矩阵考虑了类别之间的顺序关系,使得在分类错误较大的情况下,对结果的影响更大。
加权矩阵的公式为:
其中,i和 j 分别表示实际类别和预测类别的索引,N 是类别的总数。
这个权重矩阵使得在实际类别和预测类别之间的差异更大时,加权kappa的值更低,反映了模型在处理更大差异时的性能表现。
-
期望矩阵(Expected Matrix): 期望矩阵是在没有模型和实际数据之间相关性的情况下,预测分类的期望值。它的计算方式是通过实际类别和预测类别的直方图的外积得到的,并且被规范化,使得它的和与观察矩阵相等。
-
加权二次kappa计算: 加权二次kappa的计算公式如下:
其中,Oi,j 是观察到的混淆矩阵的元素,Ei,j 是期望的混淆矩阵的元素,wi,j 是加权矩阵的元素。
这个公式比较了实际观察到的混淆矩阵与预期混淆矩阵之间的一致性。如果模型的预测与实际情况完全一致,则加权二次kappa等于1;如果模型的预测不比随机预测更好,则其值可能低于0。
应用场景:
加权二次kappa通常用于评估分类问题中具有序关系的类别。例如,对于医学诊断中的疾病分级、教育评估中的学生成绩预测等场景,加权二次kappa可以更好地反映模型在不同类别预测上的准确性和一致性。
通过混淆矩阵和加权二次kappa,我们能够更全面地评估分类模型的性能,尤其是在处理多类别、类别有序性较强的问题时,它是一个非常有用的评估指标。