引言:
分类是数据挖掘三大核心技术( 关联规则、分类、聚类) 之一 ,其实质是产生一个目标函数 f , 该函数将输入数据集的属性集 x 映射到已经定义的类标签 y 上。该目标函数通常也被称为分类模型或分类器
机器学习分为三个阶段:
第一阶段:学习模型。采用学习算法,通过对训练集进行归纳学习得到分类模型;
第二阶段:测试模型。将已经学习得到的分类模型用于测试集,对测试集中未知类别的实例进行分类。
第三阶段:性能评估。显然,通过测试集产生的分类未必是最佳的,这就导致对测试集的分类可能产生错误。而人们希望尽量得到信呢个最佳的分类模型,就是的对分类器性能评价至关重要。只有通过优秀的评价标准才能选择出性能更好的分类器。
在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。业内目前常常采用的评价指标有精确率(Precision)、召回率(Recall)、F值(F-Measure)等,下图是不同机器学习算法的评价指标。下文讲对其中某些指标做简要介绍。
分类器评估准则
混淆矩阵
目前 ,分类器性能评价标准很多,其中比较常用的主要有准确度或错误率、查全率、查准率和F1等。为了清楚地认识这些评价标准, 首先介绍一下混淆矩阵。
定义
混淆矩阵(Confusion matrix)就是用于总结有指导分类结果的矩阵。沿着主对角线上的项表示正确分类的总数,其他非主对角线的项表示分类的错误数。
二分类的混淆矩阵
- True Positive(真正, TP):将正类预测为正类数.
- True Negative(真负 , TN):将负类预测为负类数.
- False Positive(假正, FP):将负类预测为正类数 → 误报 (Type I error).
- False Negative(假负 , FN):将正类预测为负类数 → 漏报 (Type II error).
注:实际正例数
(p)=TP+FN
;实际负例数(N)=FP+TN
;实例总数(C)=P+N
。一个混合矩阵已经能够显示出评价分类器性能的一些必要信息。为了更方便地比较不同分类器的性能,从混合矩阵中总结出准确率、精确率、召回率、F-值(F-measure)等。
多类分类的混淆矩阵
定义:对于一个m分的标准分类问题来说,也可以定义如表1所示m×m的m分混淆矩阵和每一个类属的Recall、Precision、F-measure和Accuracy值。
其相应的整个分类器的准确率表达式如下:
准确率(accuracy)
定义:正确分类的测试实例个数占测试实例总数的比例,用于衡量模型正确的预测新的或先前未见过的数据的类标号的能力。