决策树模型

决策树模型是机器学习的各种算法模型中比较好理解的一种模型,它的基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。

下图所示为一个典型的决策树模型——员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5,若答案为“是”,则认为该员工会离职,若答案为“否”,则接着判断该员工收入是否小于10000元,若答案为“是”,则认为该员工会离职,若答案为“否”,则认为该员工不会离职。

下面解释决策树模型的几个重要概念:父节点和子节点、根节点和叶子节点。父节点和子节点是相对的,子节点由父节点根据某一规则分裂而来,然后子节点作为新的父节点继续分裂,直至不能分裂为止。根节点则和叶子节点是相对的,根节点是没有父节点的节点,即初始节点,叶子节点则是没有子节点的节点,即最终节点。决策树模型的关键就是如何选择合适的节点进行分裂。在上图中,“满意度<5”是根节点,同时也是父节点,分裂成两个子节点“离职”和“收入<10000元”;子节点“离职”因为不再分裂出子节点,所以又是叶子节点;另一个子节点“收入<10000元”又是其下面两个节点的父节点;“离职”及“不离职”则为叶子节点。在实际应用中,企业会通过已有的数据来分析离职员工都符合何种特征,如查看他们的满意度、收入、工龄、月工时、项目数等,然后选择相应的特征进行节点分裂,便能搭建出类似上面的决策树模型,再利用该模型预测员工离职情况,并根据预测结果采取应对措施。

决策树的概念并不复杂,主要是通过连续的逻辑判断得出最后的结论,其关键在于如何建立这样一棵“树”。例如,根节点应该选择哪一个特征,选择“满意度<5”或选择“收入<10000元”作为根节点,会收到不同的效果。其次,收入是一个连续变量,选择“收入<10000元”或选择“收入<100000元”作为一个节点,其结果也是有区别的。

决策树模型的建树依据:

决策树模型的建树依据主要用到的是基尼系数的概念。基尼系数(gini)用于计算一个系统中的失序现象,即系统的混乱程度。基尼系数越高,系统的混乱程度就越高,建立决策树模型的目的就是降低系统的混乱程度,从而得到合适的数据分类效果。采用基尼系数进行运算的决策树也称为CART决策树。

除了基尼系数,还有另一种衡量系统混乱程度的经典手段——信息熵。

为了衡量不同划分方式降低信息熵的效果,还需要计算分类后信息熵的减少值(原系统的信息熵与分类后系统的信息熵之差),该减少值称为熵增益或信息增益,其值越大,说明分类后的系统混乱程度越低,即分类越准确。

基尼系数涉及平方运算,而信息熵涉及相对复杂的对数函数运算,因此,目前决策树模型默认使用基尼系数作为

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值