数据挖掘学习日记4·分类初阶

1 基本概念

根据预测结果是否离散,预测问题分为分类和数值预测(回归)两大门类。

1.1 分类的基本任务与两阶段

分类的基本任务是:

构建分类器来来预测类标号。

基于这个基本任务,可以将分类过程分为两个阶段:

  1. 学习阶段:构建分类模型
  2. 分类阶段:使用模型预测给定数据的类标号

即,首先使用训练数据得到分类器,再使用分类器为测试集做预测。

分类的结果是离散的。

1.2 分类工作的准备

在分类过程中,需要用到两个相互独立的集合:训练集和测试集。我们使用训练集来构建分类模型(步骤一),使用测试集来进行模型评价(步骤二)。 >>训练集与测试集的概念

其中,训练集由数据库元组和与它们相关的类标号组成,即,训练集是带标签的。故,分类是一种有监督学习>>监督学习的概念

1.3 基本概念

  1. 训练元组:构成训练数据的数据集元祖,从数据库中随机挑选。数据元组也称样本实例数据点 对象
  2. 类标号属性:标识数据元组的分类属性,由数据库属性确定。必须是离散和无序的(因此分类前要对类标号进行离散化处理)。

1.4 分类的一般流程

  1. 准备训练集-->构建分类模型(分类器)-->得出分类规则
  2. 准备测试集-->使用分类器对测试集进行分类(预测类标号)-->使用指标对分类模型进行评价

评价指标有多个,常见的指标有精确性和召回率,而精确性和召回率通过混淆矩阵计算出,后文再述。

2 分类算法评价方法

2.1 基本概念

  1. 正元组:感兴趣的主要类元组,用P表示(Positive)。常为属性的正向倾向取值。
  2. 负元组:其它元组,用N表示(Negative)。常为属性的负向倾向取值。
  3. 当分类器做出了正确的分类,我们称结果正确/真,否则为错误/假。被正确分类的样本称为“正例”或“阳性”,被错误分类的样本称为“负例”或“阴性”。故易知,分类可能产生如下结果:
  • TP(True Positive):真正例,或真阳性,指正元组被正确标记为正元组。
  • TP(True Negative):真负例,或真阴性,指负元组被正确标记为负元组。
  • FP(False Positive):假正例,或假阳性,指负元组被错误标记为正元组。
  • FN(False Negative):假负例,或假阴性,指正元组被错误标记为负元组。

2.2 估计分类器的度量

分类器的度量主要包括:准确率/识别率(precision)、敏感度/召回率/回归率/真正例率(recall/sensitive)、特效性/真负例率(specificity)、精度(accuracy)、F1、Fβ。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值