机器学习的决策树算法

凯旋yyds

已于 2024-04-29 19:59:18 修改

阅读量715

点赞数 11

文章标签：机器学习算法决策树

于 2024-04-29 19:57:33 首次发布

本文链接：https://blog.csdn.net/m0_74397934/article/details/138322736

版权

一、决策树的介绍：

决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

从数据产生决策树的机器学习技术叫做决策树学习，通俗说就是决策树。

决策树是一树状结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点，多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造出决策树是一个自上而下，分而治之的过程。

二、决策树算法：

ID3算法(信息增益)：

从信息论的知识中我们知道：信息熵越大，样本的纯度越低。ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。

信息增益 = 信息熵 - 条件熵：

也可以表示为H0 - H1，比如上面实例中我选择纹理作为根节点，将根节点一分为三，则：

意思是，没有选择纹理特征前，是否是好瓜的信息熵为0.998，在我选择了纹理这一特征之后，信息熵下降为0.764，信息熵下降了0.234，也就是信息增益为0.234。

C4.5算法(信息增益率)：

C4.5算法最大的特点是克服了ID3对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。

信息增益率=信息增益/特征本身的熵：

信息增益率对可取值较少的特征有所偏好（分母越小，整体越大），因此C4.5并不是直接用增益率最大的特征进行划分，而是使用一个启发式方法：先从候选划分特征中找到信息增益高于平均值的特征，再从中选择增益率最高的。

例如上述的例子，我们考虑纹理本身的熵，也就是是否是好瓜的熵。

纹理本身有三种可能，每种概率都已知，则纹理的熵为：

那么选择纹理作为分类依据时，信息增益率为：

CART算法(基尼指数)：

基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

基尼系数越小，不纯度越低，特征越好。这和信息增益（率）正好相反。基尼指数可以用来度量任何不均匀分布，是介于0-1之间的数，0是完全相等，1是完全不相等。

在这里插入图片描述

三种算法的对比

适用范围：

ID3算法只能处理离散特征的分类问题，C4.5能够处理离散特征和连续特征的分类问题，CART算法可以处理离散和连续特征的分类与回归问题。

假设空间：

ID3和C4.5算法使用的决策树可以是多分叉的，而CART算法的决策树必须是二叉树。

优化算法：

ID3算法没有剪枝策略，当叶子节点上的样本都属于同一个类别或者所有特征都使用过了的情况下决策树停止生长。

C4.5算法使用预剪枝策略，当分裂后的增益小于给定阈值或者叶子上的样本数量小于某个阈值或者叶子节点数量达到限定值或者树的深度达到限定值，决策树停止生长。

CART决策树主要使用后剪枝策略。

剪枝处理：

决策树算法很容易过拟合，剪枝算法就是用来防止决策树过拟合，提高泛华性能的方法。剪枝分为预剪枝与后剪枝。

预剪枝
预剪枝是指在决策树的生成过程中，对每个节点在划分前先进行评估，若当前的划分不能带来泛化性能的提升，则停止划分，并将当前节点标记为叶节点。

预剪枝方法有：
（1）当叶节点的实例个数小于某个阈值时停止生长；
（2）当决策树达到预定高度时停止生长；
（3）当每次拓展对系统性能的增益小于某个阈值时停止生长；

预剪枝不足就是剪枝后决策树可能会不满足需求就被过早停止决策树的生长。

后剪枝
后剪枝是指先从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点，能带来泛化性能的提升，则将该子树替换为叶节点。

后剪枝决策树通常比预剪枝决策树保留了更多的分枝，一般情形下，后剪枝决策树的欠拟合风险很小，泛化能力往往优于预剪枝决策树。但后剪枝决策树是在生产完全决策树之后进行的，并且要自底向上地对所有非叶子节点进行逐一考察，因此其训练时间开销比未剪枝的决策树和预剪枝的决策树都要大很多。

决策树特点

优点：
容易理解，可解释性较好
可以用于小数据集
时间复杂度较小
可以处理多输入问题，可以处理不相关特征数据
对缺失值不敏感

缺点：
在处理特征关联性比较强的数据时，表现得不太好
当样本中各类别不均匀时，信息增益会偏向于那些具有更多数值的特征
对连续性的字段比较难预测
容易出现过拟合
当类别太多时，错误可能会增加得比较快