什么是决策树?
决策树模型本质是一颗由多个判断节点组成的树。在树的每个节点做参数判断,进而在树的最末枝(叶结点)能够对所关心变量的取值作出最佳判断。通常,一棵决策树包含一个根结点,若干内部节点和若干叶结点,叶结点对应决策分类结果。分支做判断,叶子下结论。
我们看一个简单的决策树的模型,通过动物的一些特点来判断它是否是鱼类,在决策树模型中,我们来看每一个节点是如何做判断的。我们将所有要研究的动物作为树最上端的起点,对它进行第一个判断,是否能脱离水生存?如果判断为是的话,它不是鱼类。如果为否的话,我们还要再进行下一个判断,是否有脚蹼?如果是的话,它就是非鱼类,如果否的话就是鱼类。
我们仅仅是通过最多两个层次的判断,在树最末端的叶子结点,可以对我们感兴趣的问题给出了一个相对而言的最佳决策。这个就是决策树的逻辑,非常简单且和人脑理解事物的逻辑很类似。
决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。
简单:逻辑相对简单,整个算法没有更复杂的逻辑,只是对节点进行分叉;
高效:模型训练速度较快;
强解释性:模型的判断逻辑可以用语言清晰的表达出来,比如上述决策树案例中的判断,就可以直接用语言表述成:脱离水不能生存的没有脚蹼的动物,我们判断它是鱼;
决策树模型应用于数据分析的场景主要有三种:
监督分层;
驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);
预测:根据模型进行分类的预测;
熵是什么?
熵是描述判断的不确定性,大多数决策树的最终判断