决策树是一种常见的分类和回归算法,分为分类树和回归树。
一、分类树
分类树的分类思想很自然,就像常人一样,常人在判断一个瓜是不是好瓜时,一般先看色泽(当然也可能是其他属性),再看根蒂,再听敲声…最终我们做出一个分类:它是好瓜或者坏瓜。分类树正是对每一个示例采取这种属性依次判别的方式来做出最终分类的。在使用分类树进行分类时,从根结点开始,对实例的某一属性进行判断,根据判断结果,将实例分配到其子结点。这时,每一个子结点内部都是该属性取值相同的示例。如此递归地对实例进行判断并分配,直至达到叶子结点。最后将实例分到叶子结点的类中。
根据上面的描述可以写出决策树的算法:
下面很自然地我们要提出2个问题:
1.什么时候停止分支?
2.哪些属性先判断?
第1个问题:正如算法中第2、6、13步,决策树在以下3种情况下停止分支,得到叶子节点:
1.当前节点包含的示例属于同一类别,无需划分。
2.当前属性集为空(所有的属性都判断完了),或者所有示例的所有属性取值相同,无法划分。
3.