对weka 度量分类模型优劣指标的说明

原创 2013年12月06日 11:53:09
示例如下:
=== Detailed Accuracy By Class ===
TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
  0.93      0.002      0.989     0.93      0.959      0.997    体育
  0.93      0.01       0.939     0.93      0.935      0.97     城市
  0.92      0.023      0.868     0.92      0.893      0.978    娱乐
  0.93      0.005      0.969     0.93      0.949      0.991    房产
  0.84      0.043      0.764     0.84      0.8        0.954    新闻
  0.84      0.018      0.884     0.84      0.862      0.95     科技
  0.83      0.028      0.83      0.83      0.83       0.951    财经
指标说明(参考最下面给出的混淆矩阵):
1、TP Rate :true positive rate,TPR简称“真正率” ,即被模型预测为正的正样本比率。TPR = TP /(TP + FN) 正样本预测结果数 / 正样本实际数。以体育类为例,TPR=93/100= 0.93.
2、FP Rate:false positive rate, FPR简称“假正率” ,即被模型预测为正的负样本比率 FPR = FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数。以体育类为例,FPR=1/600= 0.0017≈0.002。
3、Precision:精确度,即被模型正确预测的样本与所有被预测为正的样本的比率。以体育类为例,被模型正确预测的样本数 = 93,所有被预测为正的样本为94,所以Precision=93/94=0.98936≈0.989.
4、Recall:召回率,即所有该类样本被正确预测的比例。  以体育类为例,总样本数为100,正确预测93个,召回率=0.93.
5、 F-Measure:在weka中F-Measure被定义为(2*Precision*Recall)/(Precision*Recall).  以体育类为例,F-Measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.
6、ROC Area:ROC曲线下的面积,即Area Under roc Curve(AUC)。这个指标来自医学AUC值介于0.5到1之间,值越大表示分类器越好。该指标与Wilcoxon-Mann-Whitney test 统计指标等价。参见:http://longmans1985.blog.163.com/blog/static/7060547520128194220344/

Correctly Classified Instances         622               88.8571 %
Incorrectly Classified Instances        78               11.1429 %
Kappa statistic                          0.87  
Mean absolute error                      0.2064
Root mean squared error                  0.3049
Relative absolute error                 84.2857 %
Root relative squared error             87.1311 %
Total Number of Instances              700     

=== Confusion Matrix ===
  a  b  c  d  e  f  g   <-- classified as
 93  0  1  0  5  1  0 |  a = 体育
  0 93  1  0  4  0  2 |  b = 城市
  0  0 92  0  6  2  0 |  c = 娱乐
  0  1  2 93  0  2  2 |  d = 房产
  0  2  7  0 84  1  6 |  e = 新闻
  1  1  2  0  5 84  7 |  f = 科技
  0  2  1  3  6  5 83 |  g = 财经

Weka数据挖掘——分类

定义: 分类就是得到一个函数或分类模型(即分类器),通过分类器将未知类别的数据对象映射到某个给定的类别。 1. 数据分类可以分为两步 第一步建立模型,通过分析由属性描述的数据集,来建...
  • zhangyifei521
  • zhangyifei521
  • 2016年01月19日 16:53
  • 2658

Weka中分类器指标的说明

Weka中分类器会得到很多指标信息,那么它们都有什么数学意义。我稍微整理了一下供大家参考。 Kappa Statistic,这个指标用于评判分类器的分类结果与随机分类的差异度。( Kappa ...
  • wermnb
  • wermnb
  • 2012年01月06日 21:22
  • 8193

.net应用监控类库Metrics.NET之度量指标

Metrics.NET库提供了五种可以记录的度量类型: Meters 记录事件发生的频率Histograms 度量流式数据中值的分布情况Timers 保持一种事件时间持续的直方图,并记录其发生的...
  • wangshiwei1105
  • wangshiwei1105
  • 2018年01月14日 10:55
  • 52

weka实际操作--构建分类、回归模型

weka提供了几种处理数据的方式,其中分类和回归是平时用到最多的,也是非常容易理解的,分类就是在已有的数据基础上学习出一个分类函数或者构造出一个分类模型。这个函数或模型能够把数据集中地映射到某个给定的...
  • qq_38663729
  • qq_38663729
  • 2017年08月16日 16:43
  • 344

使用Weka进行数据挖掘(Weka教程七)Weka分类/预测模型构建与评价

如何使用Weka进行数据分类,模型学习和构建,模型评价与预测
  • qiao1245
  • qiao1245
  • 2016年03月14日 13:12
  • 4030

机器学习之分类模型的性能度量

在建立分类器之后,要评价分类器的泛化能力,即分类器在测试集上的分类能力。这时需要一些评价标准,及分类器的性能度量。1、混淆矩阵混淆矩阵如图所示 correct/your answer 1 ...
  • wen_xiao_cao
  • wen_xiao_cao
  • 2017年03月20日 16:31
  • 544

1.模型评估的方法与性能度量

模型评估的方法与性能度量标签(空格分隔): 王小草机器学习笔记周志华《机器学习》笔记整理1.评估模型的方法通常,将学习器的预测输出与真实输出之间的差异称为“误差”。 学习器在训练集上的误差叫做“经验...
  • sinat_33761963
  • sinat_33761963
  • 2017年02月07日 15:32
  • 1456

Weka学习一(分类器算法)

http://liouwei20051000285.blog.163.com/blog/static/252367420091016104326723/从前年开始使用weka最数据挖掘方面的研究,到现...
  • aalbertini
  • aalbertini
  • 2010年07月20日 14:42
  • 6398

Weka各类分类器的使用(Java)

1.配置 MyEclipse2013+Weka3.6+libsvm3.18+Jdk1.7+Win8.1 2.小Tips 1). Java使用Weka 实现: 将安装文件夹...
  • chenhuijie666
  • chenhuijie666
  • 2015年09月20日 21:12
  • 2029

【引用】Weka中分类器指标的说明

【引用】Weka中分类器指标的说明   2012-03-02 16:38:17|  分类: Weka |  标签: |字号大中小 订阅 本文转载自笨笨《Weka中分类器指标...
  • UPON_THE_YUN
  • UPON_THE_YUN
  • 2012年11月07日 15:03
  • 803
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:对weka 度量分类模型优劣指标的说明
举报原因:
原因补充:

(最多只允许输入30个字)