决策树是一类常见的机器学习方法。在分类问题中,表示基于属性对新的示例进行分类的过程。它呈树形结构,包含一个根节点,若干个内部节点和若干个叶节点。
决策树的分类从根节点开始,对实例的某一属性进行测试后分配到子节点中,直至不能再分,到达叶节点。
学习目标是根据给定的训练数据集建造一个决策树模型,使其能对实例进行正确的分类。
决策树学习通常包含以下几个步骤:划分选择、决策树的生成、剪枝处理、缺失值处理。
决策树学习的关键是如何选择最优划分属性,使其分支节点所包含的样本最大可能的属于同一类别,也即节点的“纯度”越来越高。
熵是度量样本集合纯度最常用的一种指标,表示的是随机标量不确定性的度量。定义为
熵越大,随机变量的不确定性就越大,则纯度越低。
信息增益(information gain)表示得知属性a的信息而使得样本集D的信息的不确定性减少的程度。信息增益越大,纯度越大。
即属性a有V个取值,产生V个分支节点,为在属性a上取值为的样本。
但信息增益对可取值数目较多的属性有所偏好,使用信息增益比(information gain ratio)可进行校正,定义为
, 其中
增益比对可取值数目较少的属性有偏好,因此C4.5算法中先从候选属性中找出信息增益高于平均水平的属性,再从中选择增益比最高的。