决策树概述
决策树是一种典型的分类方法 ,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then 形式; 2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。
基本流程
1、决策过程中提出的每个判定问题都是对某个属性的“测试”
2、决策过程的最终结论对应了我们所希望的判定结果
3、每个测试的结果或是导出最终结论,或者导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内
4、从根结点到每个叶结点的路径对应了一个判定测试序列
决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树!
划分选择
决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”**(purity)**越来越高
经典的属性划分方法:
信息增益
增益率
基尼指数