机器学习-决策树(四)

本文深入探讨了决策树的算法原理,包括从逻辑和几何角度的理解,以及信息熵、条件熵和信息增益的概念。C4.5决策树通过增益率避免对大量取值属性的偏好,而CART决策树则在构建过程中考虑了分裂的纯度。这些理论为理解和应用决策树提供了基础。
摘要由CSDN通过智能技术生成
第 4 章 决策树
4.1 算法原理:

从逻辑角度,一堆if else语句的组合
从几何角度,根据某种准则划分特征空间。
最终目的:将样本越分越“纯”

信息论内容补充:
信息熵
自信息的期望,随机变量的不确定性的度量
在这里插入图片描述
在这里插入图片描述此时的信息熵所代表的“不确定性”可以理解为集合内样本的“纯度”。

条件熵
Y的信息关于概率分布X的期望
在这里插入图片描述
信息增益
信息熵-条件熵
在这里插入图片描述
最大化信息增益。通过遍历A中所有属性,求出每个属性所有可能取值下的信息熵,计算出每个属性的信息增益,选择信息增益最大的属性作为我们的划分属性。
接着,在这个分支结点基础上需要做进一步划分。在各个分支下,再计算其中每个属性的信息增益,同样选择信息增益最大的作为下一个划分属性,即分支结点。

4.2 C4.5决策树:

使用“增益率”来选择划分属性,
信息增益准则对可取值数目较多的属性有所偏好,
信息增益率准则对可取值数目较少的属性有所偏好。
因此,这种方法不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
在这里插入图片描述

4.3 CART决策树:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
说明:所有图片来源于Datawhale.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值