【数据挖掘笔记八】分类:基本概念

 

8.分类:基本概念

分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,这种模型称为分类器,预测分类的(离散的、无序的)类标号。

8.1 基本概念

分类和回归(数值预测)是预测问题的两种主要类型。数据分类是一个两阶段过程,包括学习阶段构建分类模型和分类阶段使用模型预测给定数据的类标号。

学习阶段由于提供了每个训练元组的类标号,也称为监督学习,不同于无监督学习,每个训练元组的类标号是未知的,并且要学习的类的个数或集合实现也可能不知情。

分类阶段首先要评估分类器的预测准确率,存在过拟合情况(即在学习期间,学习器可能包含了训练数据中的某些特定的异常,但这些异常不在一般的数据集中出现),需要使用由检验元组和与它们相关联的类标号组成的检验集,独立于训练集。分类器在给定检验集上的准确率是分类器正确分类的检验元组所占的百分比。

8.2 决策树归纳

决策树归纳是从有类标号的训练元组中学习决策树。在决策树构造中,使用属性选择度量来选择将元组最好地划分成不同的类的属性。决策树建立时,许多分枝可能反应训练数据中的噪声或离群点,树剪枝试图识别并剪去这种分枝,以提高在未知数据上分类的准确率。ID3、C4.5和CART都采用贪心(非回溯的)方法,其中决策树以自顶向下递归的分治方式构造。

属性选择度量是决策树选择分类的准则,把给定类标记的训练元组的数据分区最好地划分成单独类的启发式方法。属性选择度量为描述给定训练元组的每个属性提供了秩评定。具有最好度量得分的属性被选为元组的分裂属性。信息增益、增益率和基尼指数是三种常见的属性选择度量。信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值