1.决策树模型简介
基本原理是通过对一系列问题进行if/else的推导,最终实现相关决策。
决策树的概念并不复杂,主要是通过连续的逻辑判断得出最后的结论,其关键在于如何建立这样一棵“树”。
决策树模型的一个实例
2 Gini系数(CART决策树)
决策树模型的建树依据主要用到的是基尼系数的概念。
采用基尼系数进行运算的决策树也称为CART决策树。
基尼系数(gini)用于计算一个系统中的失序现象,即系统的混乱程度(纯度)。基尼系数越高,系统的混乱程度就越高(不纯),建立决策树模型的目的就是降低系统的混乱程度(体高纯度),从而得到合适的数据分类效果。
基尼系数的计算公式如下。
3 信息熵、信息增益
除了基尼系数,还有另一种衡量系统混乱程度的经典手段——信息熵。
在搭建决策树模型时ÿ