1 基本概念
根据预测结果是否离散,预测问题分为分类和数值预测(回归)两大门类。
1.1 分类的基本任务与两阶段
分类的基本任务是:
构建分类器来来预测类标号。
基于这个基本任务,可以将分类过程分为两个阶段:
- 学习阶段:构建分类模型
- 分类阶段:使用模型预测给定数据的类标号
即,首先使用训练数据得到分类器,再使用分类器为测试集做预测。
分类的结果是离散的。
1.2 分类工作的准备
在分类过程中,需要用到两个相互独立的集合:训练集和测试集。我们使用训练集来构建分类模型(步骤一),使用测试集来进行模型评价(步骤二)。 >>训练集与测试集的概念
其中,训练集由数据库元组和与它们相关的类标号组成,即,训练集是带标签的。故,分类是一种有监督学习。 >>监督学习的概念
1.3 基本概念
- 训练元组:构成训练数据的数据集元祖,从数据库中随机挑选。数据元组也称样本、实例、数据点 或对象。
- 类标号属性:标识数据元组的分类属性,由数据库属性确定。必须是离散和无序的(因此分类前要对类标号进行离散化处理)。
1.4 分类的一般流程
- 准备训练集-->构建分类模型(分类器)-->得出分类规则
- 准备测试集-->使用分类器对测试集进行分类(预测类标号)-->使用指标对分类模型进行评价
评价指标有多个,常见的指标有精确性和召回率,而精确性和召回率通过混淆矩阵计算出,后文再述。
2 分类算法评价方法
2.1 基本概念
- 正元组:感兴趣的主要类元组,用P表示(Positive)。常为属性的正向倾向取值。
- 负元组:其它元组,用N表示(Negative)。常为属性的负向倾向取值。
- 当分类器做出了正确的分类,我们称结果正确/真,否则为错误/假。被正确分类的样本称为“正例”或“阳性”,被错误分类的样本称为“负例”或“阴性”。故易知,分类可能产生如下结果:
- TP(True Positive):真正例,或真阳性,指正元组被正确标记为正元组。
- TP(True Negative):真负例,或真阴性,指负元组被正确标记为负元组。
- FP(False Positive):假正例,或假阳性,指负元组被错误标记为正元组。
- FN(False Negative):假负例,或假阴性,指正元组被错误标记为负元组。
2.2 估计分类器的度量
分类器的度量主要包括:准确率/识别率(precision)、敏感度/召回率/回归率/真正例率(recall/sensitive)、特效性/真负例率(specificity)、精度(accuracy)、F1、Fβ。