从决策树到gbdt

1、决策树用做分类和回归

问题:

决策树如何做回归?

2、决策树的生成算法有哪几种

id3、c4.5、CART

3、决策树的结构:

内部节点表示特征,叶节点表示类。

决策树的内部节点的分支是多分支(一个内部节点可以有多个子节点)。

决策树每一层的特征(属性)都不相同。

4、决策树的特征选择:熵、条件熵、互信息、信息增益

决策树的特征选择的简单描述:如果一个特征具有更好的分类能力,那么依此特征将数据集分割成子集,使得子集在当前条件下有最好的分类,那么就应该选择这个特征,也就是说使用该特征划分子集后,各个子集内类别的不确定性更低(就是说各个子集内的样本几乎都属于1个类别)。

熵的公式:

条件熵的公式:,即X给定的条件下Y的条件概率分布的熵对X的的数学期望,即条件熵的均值。

信息增益就是互信息。

根据信息增益选择特征的方法是:对训练数据集D,计算每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。即给定条件下条件熵最小(也就是给定条件下类别纯度最高)。

在实际应用中,经验熵、经验条件熵、信息增益的计算方法:

给定数据集D,类别K,某个特征A:

经验熵:

经验条件熵:

信息增益:相减。

5、信息增益与信息增益比:

信息增益比的公式:,其中是特征A的值的熵。

信息增益会倾向于选择特征的取值较多的特征,比如以物品的id为特征,一个物品对应一个id,则id3算法倾向于将每个数据自成一类,以id为特征的条件信息熵趋向于0,则信息增益最大,但是以id为特征没有意义,所以需要对其进行惩罚,惩罚系数就是以id为特征的情况下,id的个数为熵,将该熵作为分母,也就是说特征的取值个数越多,熵越大,对以该特征为条件得到的信息增益被惩罚的越厉害。

信息增益比也有缺点,倾向于特征取值较少的特征。

所以实际应用中,先用特征增益选取特征,然后再从其中使用信息增益比选取特征。

参考:https://www.zhihu.com/question/22928442/answer/117189907

6、ID3与C4.5的优缺点及区别:

参考:https://www.zhihu.com/question/27205203?sort=created

处理问题的目标相同:

C4.5和ID3都只能做分类。

样本数据差异:

ID3只能对离散变量进行处理,C4.5也可以处理连续变量(使用二分法,先对特征进行排序,然后取两个数的中间值为阈值进行二分切分)。

ID3对缺失值敏感,C4.5可以处理缺失值。

样本特征上的差异:

7、可以使用ID3或者C4.5进行特征选择。

8、决策树剪枝的原理及公式:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值