一.决策树的构建
决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略:这里有信息增益,增益比,基尼系数这3种。
所以说信息增益,增益比,基尼系数决定着决策树的划分。选择信息增益最大的属性,作为根节点,依次递归排列。
二.熵和信息熵
通常使用“熵”来度量样本集合的纯度,“熵”就是物体内部的混乱程度,理论上“熵”的值越小,数据集的“纯度”越高,下面是“熵”的计算公式:
在这里插入图片描述
Pk指的是第k类样本所占的比率。
信息熵:指的是测试属性对于样本纯度的增益效果,值越大越好,计算公式为:
信息增益=样本的熵-所有测试属性熵的和
Dv指的是满足某个测试属性的样本集。
选择信息增益最大的属性,作为根节点,然后递归计算最优的节点属性即可组成最优的策略树。ID3算法就是依此实现的。
同样道理求出特征:工作,年龄,贷款特征的增益,g(D,a4)=0.4,最大,选择a4特征最为最佳特征,先放到树的第一个节点上,依次递归计算。
三. 剪枝处理
构建决策树的过程中,如果完全按照训练集进行分支节点的构建,会使决策树与训练集过拟合,无法支持真实数据的要求,而且由于分支节点过多,还会增大训练和测试的时间开销。为了解决这个问题,需要对决策树进行剪枝处理。
是