决策树模型

gulie8

于 2021-07-14 17:12:13 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘与机器学习

本文链接：https://blog.csdn.net/gulie8/article/details/118731740

版权

决策树模型是机器学习的各种算法模型中比较好理解的一种模型，它的基本原理是通过对一系列问题进行if/else的推导，最终实现相关决策。

下图所示为一个典型的决策树模型——员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5，若答案为“是”，则认为该员工会离职，若答案为“否”，则接着判断该员工收入是否小于10000元，若答案为“是”，则认为该员工会离职，若答案为“否”，则认为该员工不会离职。

下面解释决策树模型的几个重要概念：父节点和子节点、根节点和叶子节点。父节点和子节点是相对的，子节点由父节点根据某一规则分裂而来，然后子节点作为新的父节点继续分裂，直至不能分裂为止。根节点则和叶子节点是相对的，根节点是没有父节点的节点，即初始节点，叶子节点则是没有子节点的节点，即最终节点。决策树模型的关键就是如何选择合适的节点进行分裂。在上图中，“满意度＜5”是根节点，同时也是父节点，分裂成两个子节点“离职”和“收入＜10000元”；子节点“离职”因为不再分裂出子节点，所以又是叶子节点；另一个子节点“收入＜10000元”又是其下面两个节点的父节点；“离职”及“不离职”则为叶子节点。在实际应用中，企业会通过已有的数据来分析离职员工都符合何种特征，如查看他们的满意度、收入、工龄、月工时、项目数等，然后选择相应的特征进行节点分裂，便能搭建出类似上面的决策树模型，再利用该模型预测员工离职情况，并根据预测结果采取应对措施。

决策树的概念并不复杂，主要是通过连续的逻辑判断得出最后的结论，其关键在于如何建立这样一棵“树”。例如，根节点应该选择哪一个特征，选择“满意度＜5”或选择“收入＜10000元”作为根节点，会收到不同的效果。其次，收入是一个连续变量，选择“收入＜10000元”或选择“收入＜100000元”作为一个节点，其结果也是有区别的。

决策树模型的建树依据：

决策树模型的建树依据主要用到的是基尼系数的概念。基尼系数（gini）用于计算一个系统中的失序现象，即系统的混乱程度。基尼系数越高，系统的混乱程度就越高，建立决策树模型的目的就是降低系统的混乱程度，从而得到合适的数据分类效果。采用基尼系数进行运算的决策树也称为CART决策树。

除了基尼系数，还有另一种衡量系统混乱程度的经典手段——信息熵。

为了衡量不同划分方式降低信息熵的效果，还需要计算分类后信息熵的减少值（原系统的信息熵与分类后系统的信息熵之差），该减少值称为熵增益或信息增益，其值越大，说明分类后的系统混乱程度越低，即分类越准确。

基尼系数涉及平方运算，而信息熵涉及相对复杂的对数函数运算，因此，目前决策树模型默认使用基尼系数作为

最低0.47元/天解锁文章

gulie8

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
决策树模型

决策树模型是机器学习的各种算法模型中比较好理解的一种模型，它的基本原理是通过对一系列问题进行if/else的推导，最终实现相关决策。下图所示为一个典型的决策树模型——员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5，若答案为“是”，则认为该员工会离职，若答案为“否”，则接着判断该员工收入是否小于10000元，若答案为“是”，则认为该员工会离职，若答案为“否”，则认为该员工不会离职。下面解释决策树模型的几个重要概念：父节点和子节点、根节点和叶子节点。父节点和子节点是相对的，子节点由
复制链接

扫一扫

专栏目录