使用Weka进行数据挖掘(Weka教程八)Weka分类评价Evaluation输出分析

上一篇讲解了分类模型的构建方法和评价,Weka提供了多种多样的评价指标,为了让大家更清楚,降低学习时间,在这篇文章中我将分析这些指标,首先看下Weka输出的评价结果:
这里写图片描述

这么多评价指标,相信大家肯定头都大了,下面就这些指标一一展开说明:

  • 基本指标

首先是分类中最经典的TPFN组合,如下图所示:
这里写图片描述
1、 FN:False Negative,被判定为负样本,但事实上是正样本。
2、 FP:False Positive,被判定为正样本,但事实上是负样本。
3、TN:True Negative,被判定为负样本,事实上也是负样本。
4、TP:True Positive,被判定为正样本,事实上也是证样本。

5、precesion:查准率
即在检索后返回的结果中,真正正确的个数占整个结果的比例。precesion = TP/(TP+FP) 。
6、 recall:查全率
即在检索结果中真正正确的个数 占整个数据集(检索到的和未检索到的)中真正正确个数的比例。recall = TP/(TP+FN)即,检索结果中,你判断为正的样本也确实为正的,以及那些没在检索结果中被你判断为负但是事实上是正的(FN)。
7、F-Measure
是Precision和Recall加权调和平均
P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。
8、MCC 马修斯相关系数
衡量不平衡数据集的指标比较好,公式是:

这里写图片描述

接下来就是最为著名的ROC曲线了,有必要专门介绍一下。

  • ROC曲线

ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR)
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将 “Score”值作为阈值threshold,当测试样本属于正样本的概率 大于或等于这个threshold时,认为它为正样本,否则为负样本。
一个典型的ROC曲线如下图:
这里写图片描述

计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。

  • PRC曲线

在正负样本分布得极不均匀(highly skewed datasets)的情况下,PRC比ROC能更有效地反应分类器的好坏。
PRC曲线和ROC曲线有些类似,但是又有不同:

这里写图片描述

  • 其他指标

1、kappa statics Kappa
值即内部一致性系数(inter-rater,coefficient of internal consistency),是作为评价判断的一致性程度的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两者一致性较差。

2、Mean absolute error 和 Root mean squared error
平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。

3、Relative absolute error 和 Root relative squared error
相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值的比重来反映误差大小。

  • 3
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
WEKA是一个流行的机器学习工具,而Shapelet分类器是一种特殊的时间序列分类算法。在Python中,可以使用weka库来调用WEKA和Shapelet分类器。 首先,确保已经安装了weka库。可以使用pip命令进行安装: ``` pip install python-weka-wrapper3 ``` 接下来,我们将使用weka库来调用WEKA和Shapelet分类器。以下是一个示例代码: ```python import weka.core.jvm as jvm from weka.core.converters import Loader from weka.classifiers import Classifier from weka.classifiers import Evaluation # 启动JVM jvm.start() # 加载数据集 loader = Loader(classname="weka.core.converters.ArffLoader") data = loader.load_file("data.arff") data.class_is_last() # 构建Shapelet分类器 classifier = Classifier(classname="weka.classifiers.lazy.DTW_1NN") classifier.build_classifier(data) # 进行交叉验证评估 evaluation = Evaluation(data) evaluation.crossvalidate_model(classifier, data, 10, Random(1)) # 输出评估结果 print(evaluation.summary()) # 关闭JVM jvm.stop() ``` 在上述代码中,我们首先启动了WEKA的Java虚拟机(JVM)。然后,使用weka库中的Loader类加载数据集。接着,使用Classifier类构建Shapelet分类器,并使用build_classifier方法训练模型。最后,使用Evaluation进行交叉验证评估,并输出评估结果。 请注意,上述代码中的"data.arff"是一个示例数据集的文件名。你需要将代码中的数据集文件名替换为你自己的数据集文件名,并确保数据集的格式正确。 这样,你就可以使用weka库调用WEKA和Shapelet分类进行时间序列分类任务了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值