决策树学习笔记1

ID3

1.主体思想是奥卡姆剃刀(小成本办大事)。用信息增益(relative entropy)来度量信
息选择,对信息增益大的特征进行分裂。

2.大致步骤:
初始化特征集合和数据集合
计算数据集合信息熵(离散随机事件的出现概率)和所有特征的条件熵(在给定 X 的条件下 Y 的不确定性)
选择信息增益最大的特征作为决策节点
删除上一步使用的特征,按照特征值来划分不同分支的数据集合
重复以上操作

3.缺点
没有修枝策略,容易过拟合(overfitting)
信息增益对特征值数目多的有偏好,信息增益接近于1
只能用于处理离散分布的特征
没有考虑缺失值

C4.5

1.主题思想引入信息增益率,将连续特征离散化。
对于特征值缺失的情况,用没有缺失的样本子集所占比重来折算信
息增益率。将样本以不同概率划分到不同节点中。

2.大致步骤:
从候选特征中找到信息增益高于平均值的特征,从中选择增益率最
高的。

3.缺点
剪枝策略可继续优化
C4.5使用多叉树,用二叉树效率更高
C4.5只能用于分类(clustering)
C4.5在log2的运算太耗时,连续值还需要进行排序运算
只适用于能够驻留于内存的数据集,当训练集太大时,程序无法运

CART(Classification And Regression Tree)

1.主要思想 分裂 剪枝 树选择

2.大致步骤:
分裂——进行二叉递归划分
剪枝——从最大树开始,每次剪去训练数据熵对整体性能贡献最小
的分裂节点,直到只剩下根节点
树选择——用测试集评估每颗剪枝树的预测性能

ID3、C4.5和CART三者的差异

划分特征:
ID3的核心是信息增益,偏好特征值多的特征
C4.5使用信息增益率克服ID3中信息增益的缺点,偏好特征值小的
特征
CART使用基尼系数解决了C4.5公式中log计算量大的问题,偏好特
征值较多的特征

应用方面:
ID3和C4.5都只能用于分类(clustering)问题,CART可以用于分
类(clustering)和回归(regression)问题

样本数据使用:
ID3和C4.5都只能使用一次特征值,而CART可以多次重复使用特征

剪枝策略

预剪枝
通过在节点划分之前确定是否继续增长

判断方法:
节点内数据样本低于某一阈值
所有节点特征都已经分裂
划分节点前准确率较低

目的
降低过拟合的风险,还可以减少训练时间。

缺点
基于贪心算法(不从整体最优上考虑,而是在某种意义上的局部最
优解),会带来欠拟合(数据离拟合曲线远,表现在模型在训练集
表现差,在测试集表现同样差)风险。

后剪枝
通过在已经生成的决策树上进行剪枝,进而得到简化版的决策树

实现方法
用递归的方式从低到高对每一个非叶子节点进行评估。如果剪枝过
后错误率是持平或者下降,这颗子树就可以被替换掉

优点大
欠拟合风险小,泛化能力一般胜过预剪枝

缺点
训练时间太多
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值