0523西瓜书——04决策树

一、树的划分流程

在这里插入图片描述

二、树如何进行划分

如何选择最优划分属性?我们希望决策树分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。

1、信息增益

在这里插入图片描述
信息增益:结点划分前后信息熵的差值。

在这里插入图片描述

2、增益率

信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,因此采用增益率来选择最优划分属性。
在这里插入图片描述
增益率准则对可取数目较少的属性有所偏好,因此C4.5算法不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益率最大的候选划分属性,再从中选择增益率最高的。

3、基尼指数

CART决策树使用“基尼指数”来选择划分属性。

在这里插入图片描述

三、对抗过拟合的手段——剪枝处理

决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是在决策树生成过程中,对每个结点在划分前先进行评估;后剪枝是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察。
后剪枝决策树通常比预剪枝决策树保留更多的分支,一般情况下,后剪枝欠拟合的风险很小,泛化能力往往优于预剪枝决策树。但后剪枝是先生成树再自底向上的对所有非叶结点进行逐一考察,其训练时间开销比未剪枝和预剪枝决策树都要大得多。

四、如何处理连续值、缺失值

连续值的处理:二分法。找区间的中位点作为候选划分点。
缺失值的处理:

在这里插入图片描述
对于问题1,我们可以仅根据没有缺失的样本来判断属性优劣
在这里插入图片描述
学习资料:机器学习——周志华

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值