mahout中有许多分类器,包括Naive Bayes, Complementary Naive Bayes, Stochastic Gradient Descent, Support Vector Machine, Random Forest等。评估一个分类器(模型)的好坏,需要有一些指标,而在mahout中提供了下列衡量指标:
1. %-correct (ConfusionMatrix类)
最简单的,即正确分类的比率
2. Confusion matrix (ConfusionMatrix类)
通常是一个两行两列的矩阵,数据如下:
[ # of true positives, # of false negatives,
# of false positives, # of true negatives]
即为:
[正确分类为正的数量, 错误分类为负的数量,
错误分类为正的数量, 正确分类为负的数量]
一个较好的模型,应该是true positives和true negatives都远大于false negatives和false positives。
注意:false negative的代价实际上比false positive高得多。举例来说,垃圾邮件分类。正确分类为垃圾邮件为true positive,则将垃圾邮件分类为普通邮件(相当于未能将垃圾邮件正确分类为垃圾邮件)为false positive,将普通邮件分类为垃圾邮件为false negative。显然,将普通邮件分类成垃圾邮件的代价是远高于将垃圾邮件分类为普通邮件的。
confision ma