MOOC:数据仓库与数据挖掘——第八讲 分类分析与ID3决策树算法

1.分类分析

通过样本学习分类关系(分类规则)

一般流程:

1.数据准备:

        检查样本属性特征是否一致、完整,不同样本之间是否相互独立

2.特征选择:

        选择与类别相关的特征,可大致分为:强相关(能区分类别的属性)、弱相关(能区分部分类别的水属性)、不相关(不能区分类别的属性)

3。建立分类器:

 训练集——>分类算法——>模型

通过可信度来评判模型

2.决策树——分类模型

树形结构,属性分割,节点表示分布

2个步骤:生成、修剪

应用:对未知数据分割

 

典型算法:ID3算法

决策树中,非叶节点——非类别属性值(特征)

树枝——属性的值

叶节点——根到叶的路径对应对应的记录所属的类别属性值

非叶节点:与属性中具有最大信息量的非类别属性相关联

属性选择度量——信息增益

信息增益度量,也称属性选择度量,分类优劣度量

目标:选择最高信息增益(或最大熵压缩)的属性,该属性反映划分的最小随机性或“不纯性”

特点:数据是离散的,解决的是分类问题

根节点:区分能力最强

区分能力强弱通过最大信息量(信息增益)来区分

选择度量、纯度、熵——信息量

树可以转换为IF-THEN分类规则<=>根到叶子的路径

 

算法分析:

自上而下,分而治之——贪心算法

度量:信息增益

停止条件:无属性可继续区分或各分值已纯

过度适应问题:

 

剪枝

先剪枝、后剪枝

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值