数据挖掘读书笔记-分类-决策树

预测问题:分类、数值预测
分类=学习阶段+分类阶段
过分拟合:在学习期间,它可能包含了训练数据中的某些特定异常,这些异常不在一般数据集中出现。


决策树
自我概况算法:利用度量属性的指标(信息增益,增益率,基尼系数)找分裂属性,分裂点,分裂准则,使每个分区都是“纯”的,即分区内所有元祖都属于同一类。直到达到终止条件(3个)。防止过分拟合,还需要剪枝。
分类规则
优点:表示直观、易理解;学习步骤简单、快速
缺点:过分拟合
剪枝:剪去反应训练数据中的噪声或离群点,以提高在未知数据分类上的准备率
ID3,C4.5,CART: 贪心方法,自顶向下递归
递归划分终止条件:
分区D的所有元祖都属于同一类
没有剩余属性可以用来进一步划分了,这种情况下采用多数表决
给定的分枝没有元祖
属性选择度量(分裂准则)
最好的情况:每个分区的所有元祖都属于相同的类
假定数据类标号属性具有m个不同的值,定义了m个不同的类Ci ∣Ci,D∣是C i,D中元组的个数


1. 信息增益(ID3算法)
信息增益最高的属性作为节点N的分裂属性,该属性使结果分区中对元祖分类所需要的信息量最小,使得对一个对象分类所需要的期望测试数目最小。
 
8.1是只看分类结果 8.2计算考虑到了具体单个属性
 
A值为离散的,数个数即可
A值为连续的
将A递增排序,给定A的v个值,则需要计算v-1个可能的划分。选取两点之间的中间点作为可能的分裂点,计算v-1个信息期望


2. 增益率(C4.5)
如果属性是数据中的唯一标识(如id),则每个分区都是纯的(因为每个分区只有一条数据),该属性得到的信息增益最大,但是对分类没有用。(将上面的减法变为了除法)
 
3. 基尼指数(CART)选择最小的作为分裂点
 
 
 
属性分类有2个以上,考虑每种可能的二元划分!选其中最小的基尼系数,再和其他属性比较。


树剪枝
1. 先剪枝
设定的阈值大小决定元组划分是否继续
2. 后剪枝(CART:代价复杂度剪枝 为树中树叶节点的个数和树的错误率函数,剪去两个子树中的较小的代价复杂度)
被剪去的树枝用该树枝中最频繁的类标记 
C4.5 悲观剪枝 使用错误率评估
3. 前两者交叉使用


ID3,C4.5,CART都是处理较小的数据集 数据太大时,不能放进内存。因此提出可伸缩的决策树方法:穿件训练数据的一些较小样本,使用子集构建一棵树,然后最后用这些树构造一棵新树(自助乐观算法,Boat)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值