决策树几种常用的算法已经如何选择划分的特征
常用的几种决策树算法有ID3、C4.5、CART等;其中ID3使用的是信息熵增益选大的方法划分数据,C4.5是使用增益率选大的方法划分数据,CART使用的是基尼指数选小的划分方法
划分特征的优缺点
ID3:
该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法往往偏向于选择取值较多的属性,而在很多情况下取值较多的属性并不总是最重要的属性。而且ID3算法不能处理具有连续值的属性,也不能处理具有缺失数据的属性
C4.5:
使用的是增益率的划分方法,是ID3的一个改进,具有较高的准确率且可以处理连续属性。在构造树的过程中进行剪枝,使用的是悲观剪枝法(使用错误率来评估)!在构造树的过程中需要对树进行多次顺序扫描和排序,因此效率比较低,并且C4.5只适用于能够滞留于内存的数据集。
CART
分类树:基尼指数最小化(gini_index)
回归树:平方误差最小化
使用基尼指数的划分准则;通过在每个步骤最大限度降低不纯洁度,CART能够处理孤立点以及能够对空缺值进行处理。
树划分的终止条件:1、节点达到完全纯度; 2、树的深度达到用户所要深度
3、节点中样本的数量属于用户指定的个数;
树的剪枝方法是代价复杂性的剪枝方法;
如何防止过拟合
进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种:
先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。
后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。
关于特征与目标值
特征离散 目标值离散:可以使用ID3,cart
特征连续 目标值离散:将连续的特征离散化 可以使用ID3,cart
停止条件
直到每个叶子节点都只有一种类型的记录时停止,(这种方式很容易过拟合)
另一种时当叶子节点的记录树小于一定的阈值或者节点的信息增益小于一定的阈值时停止。
停止条件
直到每个叶子节点都只有一种类型的记录时停止,(这种方式很容易过拟合)
另一种时当叶子节点的记录树小于一定的阈值或者节点的信息增益小于一定的阈值时停止。