西瓜书--第四章读书笔记

1、决策树构建的基本流程

利用分而治之的想法,选择最优化分属性,将训练集根据此属性分为两类,以此类推。有三种情况将结束递归,(1)当前节点全部属于统一类别,无需划分。(2)当前属性值为空,或是所有样本在所有属性上取值相同,无法划分。(3)当前节点包含的样本为空,不能划分。

 2、如何选择最优划分属性?

一般来说,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。

我们使用信息熵作为度量样本纯度最常用的指标:

 那么如何计算信息增益呢?以西瓜的数据集为例,我们的根节点的信息熵(也就是样本数据集的所有瓜分为好瓜与“不好”瓜):

然后我们选择一个属性(色泽)来分析,如果用这个属性来分类,获得的信息增益。

先计算信息熵:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值