1、决策树算法原理&主要流程框架
决策树方法在分类、决策、规则提取等领域有着广泛的应用。
决策树是一种树状结构,其中包含三种节点:
- 根节点:没有入边,但有零条或多条出边。
- 内部节点:恰有一条入边和两条或多条出边。
- 叶节点:恰有一条入边,但没有出边。
也就是说每一个叶节点对应着一个分类,非叶节点对应着某个属性上的划分。
构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。
常用的决策树算法有ID3算法、C4.5算法、CART算法等,下面介绍经典的ID3算法。
ID3算法:
在决策树的各级节点上都用信息增益作为判断标准进行属性的选择,使得在每个节点上都能获得最大的类别分类增益,使分类后的额数据集的熵最小,这样使得树的平均深度最小,从而有效地提高了分类效率。
ID3算法流程框架:
1. 对当前样本集合,计算所有属性的信息增益;
2. 选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集;
3. 若子样本集的类别只有单个,则分支为叶节点;否则对子样本集循环调用本算法。
用属性A划分样本集S后所得的信息增益(Gain)为: