如何用决策树模型做数据分析?

本文介绍了决策树模型的本质和优势,包括其简单、高效和强解释性。通过实例展示了如何使用决策树进行数据分析,包括计算熵、信息增益,以及在Python中的实践操作。文章还探讨了决策树的分叉规则、停止分叉的条件和剪枝方法,鼓励读者将决策树应用到实际数据分析工作中。
摘要由CSDN通过智能技术生成

 什么是决策树?

决策树模型本质是一颗由多个判断节点组成的树。在树的每个节点做参数判断,进而在树的最末枝(叶结点)能够对所关心变量的取值作出最佳判断。通常,一棵决策树包含一个根结点,若干内部节点和若干叶结点,叶结点对应决策分类结果。分支做判断,叶子下结论

 

我们看一个简单的决策树的模型,通过动物的一些特点来判断它是否是鱼类,在决策树模型中,我们来看每一个节点是如何做判断的。我们将所有要研究的动物作为树最上端的起点,对它进行第一个判断,是否能脱离水生存?如果判断为是的话,它不是鱼类。如果为否的话,我们还要再进行下一个判断,是否有脚蹼?如果是的话,它就是非鱼类,如果否的话就是鱼类。

我们仅仅是通过最多两个层次的判断,在树最末端的叶子结点,可以对我们感兴趣的问题给出了一个相对而言的最佳决策。这个就是决策树的逻辑,非常简单且和人脑理解事物的逻辑很类似。

决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。

  • 简单:逻辑相对简单,整个算法没有更复杂的逻辑,只是对节点进行分叉;

  • 高效:模型训练速度较快;

  • 强解释性:模型的判断逻辑可以用语言清晰的表达出来,比如上述决策树案例中的判断,就可以直接用语言表述成:脱离水不能生存的没有脚蹼的动物,我们判断它是鱼;

 

决策树模型应用于数据分析的场景主要有三种:

  • 监督分层;

  • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);

  • 预测:根据模型进行分类的预测;

 

熵是什么?

熵是描述判断的不确定性,大多数决策树的最终判断

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值