Weka分类器结果指标含义_分类模型kappa statistic-CSDN博客

本文链接：https://blog.csdn.net/qq_34679663/article/details/89177146

本文详细介绍了Weka分类器的评估指标，包括正确分类率、Kappa统计、平均绝对误差等，以及按类别的详细准确性指标如真阳性率、查准率、查全率等，并解释了混淆矩阵的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Weka分类器结果的指标根据所选择的测试模式，显示不同文字。例如，如果选择十折交叉验证，显示Stratified cross-validation；如果选择使用训练集，显示Classifier model(full training set)，等等。由于评估内容较多，将结果分解显示如下。

1.Summary(总结)：一个统计列表，根据所选择的测试模式，总结分类期预测实例真实分类的准确度。具体项目如下。

Correctly Classified Instances(正确分类的实例)：显示正确分类的实例的绝对数量和百分比。
Incorrectly Classified Instances(错误分类的实例)：显示错误分类的实例的绝对数量和百分比。
Kappa statistic(Kappa 统计)：显示Kappa 统计量，[-1,1]范围的小数。Kappa 统计指标用于评判分类器的分类的分类结果与随机分类的差异度。K=1表明分类器完全与随机分类器相异，K=0表明分类器与随机分类相同(即分类器没有效果)，K=-1表明分类器比随机分类还要差。一般来说，Kappa统计指标的结果是与分类器的AUC指标以及准确率程正相关的，所以该值越接近1越好。
Mean absolute error(平均绝对误差)：显示平均绝对误差，此值越小实验越准确。
Root mean squared error(均方根误差)：显示均方根误差。
Relative absolute error(相对绝对误差)：显示相对绝对误差，百分数，此值越小实验越准确。
Root relative squared error(相对均方根误差)：显示相对均方根误差，百分数。
Coverage of cases(0.95 level)(案例的覆盖度)：显示案例的覆盖度，该值是分类器使用分类规则对全实例的覆盖度，百分数越高说明该规则越有效。
Mean rel.region size(0.95 level)(平均相对区域大小)：显示平均相对区域大小，百分数。
Total Number of Instances(实例总数)：显示实例总数。

2.Detailed Accuracy By Class(按类别的详细准确性)：按每个类别分解的更详细的分类器的预测精确度。结果以表格形式输出，其中，表格列的含义如下。

TP Rate(真阳性率)：显示真阳性率，[0,1]范围的小数。
FP Rate(假阳性率)：显示假阳性率，[0,1]范围的小数。另外，常使用TN和FN分别代表真阴性率和假阴性率。
Precision(查准率)：显示查准率，[0,1]范围的小数。查准率用于衡量检索系统拒绝非相关信息的能力，计算公式为Precision = 检索到的相关的文档量/检索到的文档总量 = TP/(TP+FP)。
Recall(查全率)：显示查全率，[0,1]范围的小数。查全率用于衡量检索系统检出相关信息的能力，计算公式为Recall = 检索到的相关的文档量/全部相关的文档总量 = TP/(TP+FN)。
F-Measure(F 度量)：显示F度量值，[0,1]范围的小数。F度量是查准率和查全率的调和平均数，其计算公式为F-Measure = (2 x 查全率 x 查准率)/(查全率+查准率) = (2 x TP)/(2 x TP + FP + FN)。
MCC(The Matthews Correlation Coefficient，Matthews相关系数)：显示Matthews相关系数，[0,1]范围的小数。这是一个针对二元分类的有趣性能指标，特别是各个类别在数量上不平衡时。其计算公式为。
ROC Area(接受者操作特征曲线下面积)：显示ROC面积，[0,1]范围的小数。ROC面积一般大于0.5，这个值越接近1，说明模型的分类效果越好。这个值在0.5 ~ 0.7时有较低准确度，在0.7 ~ 0.9时有一定准确度，在0.9以上时有较高的准确度。如果该值等于0.5，说明分类方法完全不起作用，没有价值；而小于0.5的值不符合真实情况，在实际中极少出现。
PRC Area(查准率 - 查全率曲线下面积)：显示PRC面积，[0,1]范围的小数。
Class(类别)：显示类别标签。