1、决策树构建的基本流程
利用分而治之的想法,选择最优化分属性,将训练集根据此属性分为两类,以此类推。有三种情况将结束递归,(1)当前节点全部属于统一类别,无需划分。(2)当前属性值为空,或是所有样本在所有属性上取值相同,无法划分。(3)当前节点包含的样本为空,不能划分。
2、如何选择最优划分属性?
一般来说,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。
我们使用信息熵作为度量样本纯度最常用的指标:
那么如何计算信息增益呢?以西瓜的数据集为例,我们的根节点的信息熵(也就是样本数据集的所有瓜分为好瓜与“不好”瓜):
然后我们选择一个属性(色泽)来分析,如果用这个属性来分类,获得的信息增益。
先计算信息熵: