第 4 章 决策树
4.1 算法原理:
从逻辑角度,一堆if else语句的组合
从几何角度,根据某种准则划分特征空间。
最终目的:将样本越分越“纯”
信息论内容补充:
信息熵
自信息的期望,随机变量的不确定性的度量
此时的信息熵所代表的“不确定性”可以理解为集合内样本的“纯度”。
条件熵
Y的信息关于概率分布X的期望
信息增益
信息熵-条件熵
最大化信息增益。通过遍历A中所有属性,求出每个属性所有可能取值下的信息熵,计算出每个属性的信息增益,选择信息增益最大的属性作为我们的划分属性。
接着,在这个分支结点基础上需要做进一步划分。在各个分支下,再计算其中每个属性的信息增益,同样选择信息增益最大的作为下一个划分属性,即分支结点。
4.2 C4.5决策树:
使用“增益率”来选择划分属性,
信息增益准则对可取值数目较多的属性有所偏好,
信息增益率准则对可取值数目较少的属性有所偏好。
因此,这种方法不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
4.3 CART决策树:
说明:所有图片来源于Datawhale.