决策树总结

决策树的学习包括三个步骤:特征选择,决策树的生成,决策树的剪枝

1.特征选择

信息增益: 表示知道特征X的信息而使分类的不确定性减少的程度。
如何计算:集合D的经验熵 - 给定特征A下集合D的条件经验熵。
计算每个特征下的信息增益,选择信息增益最大的特征。
缺点:偏向于选择取值较多的特征,可以使用信息增益比来改进。

2.决策树生成

ID3 分类

核心:在各个结点使用信息增益的准则来选择特征,递归的构建决策树。
具体做法:从根节点开始,计算所有特征的信息增益,选择信息增益最大的特征作为结点的特征,根据不同的取值来建立子结点,然后每个子结点递归的调用以上方法,直到所有特征的信息增益最小或没有特征选择为止。

C4.5 分类

用信息增益比来选择特征,在树的构造过程中会进行剪枝优化。
为什么要用信息增益比?
在使用信息增益准则时,取值多的特征往往会得到大的信息增益,这样得到的子结点也会多,数据划分的更细,模型会变复杂。 使用信息增益比,会对取值多的特征加上惩罚,解决了偏向于选择取值多的特征。


ID3可以对缺失值比较敏,C4.5和CART可以处理缺失值
ID3可以只能处理离散型变量,C4.5和CART可以以处理连续型变量
ID3和C4.5可以在每个结点产生多分支,每个特征在层级之间不能重复利用;CART在每个结点产生两个子节点,且每个特征可以重复利用


CART:既可以做分类,也可以做回归

二叉树
分类树:Gini
回归树:平方损失最小选择特征
CART算法:
1.决策树的生成:基于训练数据集生成决策树,生成的决策树要尽量大。
2.决策树的剪枝:用验证数据集对以生成的树进行剪枝并选择最优子树。这时用损失函数最小作为剪枝标准。
决策树的剪枝:用验证数据集对以生成的树进行剪枝并选择最优子树。这时用损失函数最小作为剪枝标准。
对于分类问题,CART树产生的是一个实际的分数,而非一个确定的类别,这有利于高效的优化算法
一棵树的复杂度由其深度和叶子节点数来决定

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

石头猿rock

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值