mahout分类算法效果评估指标

Mahout 提供了多种分类器如 Naive Bayes、Random Forest 等,并使用%-correct、混淆矩阵、熵矩阵、AUC 和对数似然等指标评估模型性能。正确分类比率是最简单的评估标准,而混淆矩阵则详细展示分类结果,好的模型应有较高 true positives 和 true negatives。AUC 是衡量二分类模型性能的重要指标,AUC 接近 1 表示模型优秀。
摘要由CSDN通过智能技术生成

mahout中有许多分类器,包括Naive Bayes, Complementary Naive Bayes, Stochastic Gradient Descent, Support Vector Machine, Random Forest等。评估一个分类器(模型)的好坏,需要有一些指标,而在mahout中提供了下列衡量指标:

1. %-correct  (ConfusionMatrix类)

最简单的,即正确分类的比率

2. Confusion matrix (ConfusionMatrix类)

通常是一个两行两列的矩阵,数据如下:

[ # of true positives, # of false negatives,

 # of false positives, # of true negatives]

即为:

[正确分类为正的数量, 错误分类为负的数量,

错误分类为正的数量, 正确分类为负的数量]

一个较好的模型,应该是true positives和true negatives都远大于false negatives和false positives。

注意:false negative的代价实际上比false positive高得多。举例来说,垃圾邮件分类。正确分类为垃圾邮件为true positive,则将垃圾邮件分类为普通邮件(相当于未能将垃圾邮件正确分类为垃圾邮件)为false positive,将普通邮件分类为垃圾邮件为false negative。显然,将普通邮件分类成垃圾邮件的代价是远高于将垃圾邮件分类为普通邮件的。

confision ma

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值