西瓜书第四章笔记

决策树:基于树状结构对分类任务进行属性的划分决策

基本思想:将样本越分越纯

一个根结点,若干个内部节点(属性测试),若干个叶节点(决策结果)

 

1.ID3决策树:

缺陷:信息增益偏好属性可取值较多的,与此同时发生过拟合的可能性大大增加

2.信息熵:越小纯度越高

------>需要多少的信息量才能将数据集划分干净

3.信息增益:越大纯度提升越大

4.C4.5:解决ID3的缺陷,信息增益除以一个固定值

 属性划分时需要注意:平衡信息增益与决策树泛化能力

5.GINI

CART:

基尼指数:计算的数值越低,数据集的纯度越高

其相关的算法步骤如下所示: 

 

 6.剪枝处理-->降低过拟合

适用范围:单决策树一定需要进行剪枝

方法:前后剪枝

连续值:

划分候选节点:属性值取中位数(17个值可以取16个中位数)

 

最优划分节点:取该点时,信息增率MAX

缺失值:让同一个样本(含该属性值缺失值的)以不同的概率(权重)划入到不同的子结点中

 7......

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值