spark 2.3 源码分析之 decision tree决策树及其 impurity信息熵、基尼系数和方差度量

最新推荐文章于 2024-06-13 16:31:12 发布

后厂村周董

最新推荐文章于 2024-06-13 16:31:12 发布

阅读量1.4k

点赞数

分类专栏： spark_ml_source 文章标签： spark AI人工智能决策树tree 信息熵、基尼系数、方差 ML机器学习

本文链接：https://blog.csdn.net/u013855234/article/details/85125415

版权

本文深入解析Spark 2.3中决策树的构建过程，包括如何分裂属性和选择最优划分属性。通过探讨信息熵、基尼系数和方差三种不纯度度量方法，阐述了决策树在分类和回归问题中的应用，并介绍了信息增益在特征选择中的作用。

摘要由CSDN通过智能技术生成

决策树 decision tree

一、简介

决策树由节点和边构成，节点分为：内部节点和叶节点，其中内部节点表示一个特征，而叶节点表示一个分类，如下图

决策树，也可以看成是If Then规则，每个实例都会覆盖其中一条路径（或规则）。

二、树的构造

决策树的本质就是根据数据，归纳出一套分类规则，与数据矛盾最小的规则。从所有可能的决策树中，找到最优决策树是NP完全问题，因此通常采用启发式方法，近似求解。通常就是递归的对特征进行分割，也就是对特征区间进行划分。


决策树生成算法
输入：训练数据集D，特征集合A
输出：决策树T
（1）如果D中所有实例都属于同一个类C_k，则T为单节点树，并将C_k作为该节点的类，返回T；
（2）如果A为空，则置T为单节点树，并将D中实例数最多的类C_k作为该节点的类，返回T；
（3）否则，从A中选择最优划分属性A_g，该属性有若干取值；
（4）根据最优属性A_g及其若干取值，将该节点分割成若干子节点：即将D分割构成若干子集D_i，返回由该节点及其子节点构成的树T；
（5）对子节点，以D_i为训练集合，A-A_g为特征集合（也可以A），递归调用（1）-（4）

上述算法只是决策树的大致生成流程，其中两个最重要的两个问题需要解决：1.最优划分属性的划分标准；2.如何分裂该属性构成若干子节点

1、如何分裂属性

分裂

最低0.47元/天解锁文章

后厂村周董

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
spark 2.3 源码分析之 decision tree决策树及其 impurity信息熵、基尼系数和方差度量

决策树 decision tree一、简介决策树由节点和边构成，节点分为：内部节点和叶节点，其中内部节点表示一个特征，而叶节点表示一个分类，如下图 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181220161036126.png)决策树，也可以看成是If Then规则，每个实例都会覆盖其中一条路径（或规则）。二、树的构造决策树...
复制链接

扫一扫