一、什么是决策树
决策树是一种基于规则的方法,它用一组嵌套的规则进行预测。在树的每个决策节点处,根据判断结果进入一个分之,反复执行这种操作直到到达叶子节点,得到预测结果。这些规则是通过训练得到的,而不是认为设定的。
规则是每一次分裂时的阀值。
二、树形成决策的过程
为便于用程序实现,一般将决策树设计成二叉树。与树的叶子节点、非叶子节点相对应,决策树的节点分为两种类型。
(1)决策节点。在这些节点处需要进行判断以决定进入哪一个分支(子节点),如用一个特征和设定的阀值进行比较。决策节点一定有两个子节点,它是非叶子节点。
(2)叶子节点。表示最终的决策结果,他们没有子节点。在分类问题中,叶子节点存储的是类别标签。
决策树是一个分层结构,可以为每一个节点赋予一个层次数。根节点的层次数为0,子节点的层次数为父节点层次数加1,。树的深度定义为所有几点的最大层数。
典型的决策树有ID3、C4.5 、CART(CLASSIFICATION AND REGRESSION TREE, 分类与回归树)等,他们区别在于数的结构与构造算法。CART同时支持分类问题和回归问题。决策树是一种判别模型,天然支持多分类问题。
分类树的映射是多为空间的分段线性划分,即用平行于各坐标轴的超平面对空间进行切分;回归树的映射函数是分段函数。决策树是分段线性函数而不是线性函数,它具有非线性建模能力。对于分类问题,如果决策树深度够大,它可以见训练样本的所有样本正确分类。但如果特征向量维数过高,可能会面临维数灾难导致准确率下降。
三、分类与回归树