我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树:《决策树算法简介及其MATLAB实现代码》。今天我们要针对决策树继续深入探讨一些的问题,目录如下:
目录
一、表示属性测试条件的方法
决策树在增长过程中的每个递归步都要选择一个属性测试条件,将数据划分成更小的子集。为了实现这个步骤,算法必须为不同类型的属性指定测试条件的方法及其相应的输出方法。
二元属性
二元属性的测试条件产生两个可能的输出,如下图所示。
标称属性
有多个属性值,测试条件可以用两种方法表示:多路划分和二元划分。在某些决策树算法如CART中,只产生二元划分,所以我们需要在有多个属性值的情况下也支持或者说提供二元划分的方法。
序数属性
也可以产生二元或者多路划分,只要不违背数据属性值的有序性。如下图所示是序数属性的不同的分组方式。