决策树算法的基本流程
决策树顾名思义就是基于树对问题的决策和判别的过程,是人类在面对决策问题时一种很自然的处理机制,下面有个例子 通过决策树得出最终的结果。
我们所要做的就是去得到这样一个树去帮助我们决策问题,使样本通过这个树实现分类。一般来说,一棵树包含一个根节点,若干个内部节点和若干个叶子节点;叶子节点对应于决策结果,其他每个节点则对应一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本的全集。从根节点到每个叶子节点的路径对应了一个判定测试序列。决策树学习的目的就是为了产生一个泛化能力强,即处理未见实例能力强的决策树,它的基本流程遵循简单直观的分而治之策略,距地步骤如下:
从伪代码函数显然可以看到决策树的生成是一个递归的过程,在决策树的生成过程中有三种情况会导致树停止生成递归返回:
- 当前叶子节点包含样本属于同一类别,此时无需划分。
- 当前属性集A为空,,或者是样本在所有属性上取值相同,无法划分。(此时标记为该节点所含样本最多的类别,属于后验分布ÿ