决策树的变量可以有 2 种:
- 数字型(Numeric):变量类型是整数或者浮点数(如收入使用>= <= > <来分割)
- 名称型(Nominal):类似编程语言中的枚举类型,变量只能从有限的选项中选取,比如“婚姻状况”,只能是已婚和未婚。使用=来分割。
决策树的构建基本步骤:
- 开始,所有记录看做一个节点;
- 遍历每个变量的每一种分割方式,找到最好的分割点;
- 分割成两个节点N1和N2;
- 对N1和N2分别机型执行2,3步,直到每个节点足够“纯”为止。
这里的“纯”,是决策树构建的关键!!!
如何量化纯度??
有3种方法
Gini不纯度
Gini =熵(Entropy)
Entropy=- 错误率
Error=
上面3个公式均是值越大,表示越“不纯” ,越小表示越“纯”。三个公式用一个即可。实践证明三种公式的选择对最终的分类准确率影像不大。一般选择熵公式。
纯度差:也叫信息增益(Information Gain),公式如下:
其中,I代表不纯度(也就是上面3个公司的任意一种), K代表分割的节点数,一般K = 2。vj表示子节点中的记录数目。上面公式实际上就是当前节点的不纯度减去子节点不纯度的加权平均数,权重由子节点记录数与当前节点记录数的比例决定。