决策树知识点总结

本文深入介绍了决策树的基本流程、划分选择,包括信息增益、增益率和基尼指数等评价标准,以及决策树的剪枝处理,如预剪枝和后剪枝。同时,讨论了连续值和缺失值的处理方法,并列举了常见的决策树分类算法,如ID3、C4.5和CART,分析了它们的优缺点。
摘要由CSDN通过智能技术生成

本章介绍关于决策树的知识,理论部分来自周老师的西瓜书,代码部分来自《机器学习实战》,有位作者对代码实现已经做了很好的介绍,有兴趣的朋友可以看一下,感谢作者。(https://www.cnblogs.com/dennis-liucd/p/7905793.html)。

一、基本流程

顾名思义,决策树是基于树结构来进行决策的,这也是人类在面临决策问题时一种很自然的处理机制。决策过程中提出的每一个问题都是对某个属性的“测试”,每个测试或是导出最终结论(分类结果),或是导出进一步需要判定的问题,其考虑范围是在上次决策结果的限定范围内进行的。

一般地,一棵决策树包含一个根结点、若干内部结点和若干叶结点;叶结点对应决策结果(样本最终的分类),其他每个结点则对应一个属性测试;每个结点包含的样本集合依据所选属性的取值被划分到相应的叶结点中去;根结点包含全部的样本。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树的学习算法是一个递归算法:

在决策树算法中,有三中情况会导致递归返回:(1)当前结点包含的样本全属于一个类别,无需划分;(2)当前属性集为空,或者所有样本在所选属性上的取值都相同,无法划分(解决思路:把当前结点标记为叶结点,将其类别设定为所含样本类别最多的类别);(3)当前结点包含的样本集合为空(解决思路:把当前结点标记为叶结点,将其类别设置为其父结点中所含样本数目最多的类别)。

二、划分选择

由上面的决策树算法知,决策树学习的关键是第8行,即如何选取最优的划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。

2.1信息增益

“信息熵”是度量样本集合纯度最常用的一种指标。假定当前集合D中第k类样本所占的比例为{p_{k}}^{}(k=1,2,...,|y|)(k =1,2,...,n),则D的信息熵定义为:

                                                                                 Ent(D)=-\sum_{k=1}^{n}p_{k} log_{2}p_{k}

Ent(D)的值越小,则D的纯度越高。

假定离散属性aV个可能的取值{ { a^{1},a^{2},...,a^{V}}},若使用a来对集合进行划分,则会产生V个分支结点,其中第v个分支结点包含了集合D中所有属性a上取值为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值