简述 决策树是一类常见的机器学习方法,是基于树结构来进行决策的,决策过程中提出的每个判定问题都是对某个属性的测试,每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内。决策过程的最终结论对应了我们所希望的判定结果。 一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶结点,叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根节点包含样本全集,从根节点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛华能力强,即处理未见示例能力强的决策树,结构图如图所示: 划分选择 由图中可以看出,决策树的关键是如何选择最优划分属性,一般而言,随着划分过程不断进行,希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。 “信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk,则信息熵定义为 Ent(D)=−∑|y|k=1pk