【西瓜书学习笔记】第4章:决策树

课程前言:

目的:

    分类:

构造出一个模型,使得样本按照判定规则,可以从上往下,判断结果

每一条路径,都是一系列判定规则,决策树的假设空间,是所有分支的可能性,从假设空间中找到一个满足的路径,构建决策树

泛化能力强,即处理未知数据的决策树

 

基本流程:

如图4.2所示,重点在于如何从A中选择最优划分属性a

 

划分选择:

    关键在于如何选择最优的属性进行划分?

    我们希望所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高

 

经典的划分方法:

信息增益:Gain(D,a)=原来的信息熵 - 现在的信息熵,(信息增益越大,意味着使用属性a来划分所获得“纯度提升”越大

存在问题,倾向于取值数目多的属性

信息熵的最大值为1,最小值为0

增益率:对取值数目较少的属性有所偏好——

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值