机器学习:决策树

本文介绍了决策树的基础知识,包括其结构和基本算法。重点讨论了ID3算法,利用信息熵和信息增益来选择最优划分属性以提高决策树的纯度。同时提到了C4.5和Cart算法,它们分别基于增益率和基尼系数进行属性选择。通过对每个属性的信息增益计算,确定最佳划分属性,从而构建决策树。
摘要由CSDN通过智能技术生成

文章内容总结源于《周志华-机器学习》

决策树

        通常决策树包含一个根结点(开始,包含所有样本)、多个的内部节点、多个叶子结点(最终,决策的结果)。

决策树的基本算法:

        

        (截图来自:周志华-机器学习) 

其中,属性集A表示为判定集合。例如,什么颜色?什么形状?

函数TreeGenerate中有三种情况:

        1.样本集D同属于一个类别,无需划分 - 标记为叶结点 

        2.A属性集为空,或者D中样本在A属性判定下取值都相同,无法划分 - 标记为叶结点

        3.A中选择最优划分属性a*

具有代表性的决策树有:

        - ID3算法 (信息增益)

        - C4.5 算法 (增益率)

        - Cart 算法 (基尼系数)

如何选择最优划分属性,以ID3为例:

信息熵:

信息增益用于衡量样本集合的纯度。 信息增益越小,纯度越高,样本中相同类别的数量就越大。

信息增益(ID3):

通过信息增益来进行决策树的划分属性选择。信息增益越大意味着使用属性a来进行划分所获得的“纯度提升”越大.

D^{v} 是D的子集, D^{v} 集合来自于是选定属性 a_{n} 下的分支 a_{n}^{v} 。 

通过计算每个选定属性的信息增益,得到最合适的属性

        思路:

                想要找到最优划分属性,就必须计算出每一个属性的信息增益。计算每一个属性的信息增益时,注意每个属性内是包含不同的分支的。例如,书中事例,西瓜的纹理就有三个分支(清晰、稍糊、模糊)。             

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值