决策树归纳

最新推荐文章于 2024-09-11 21:41:09 发布

农夫左三拳

最新推荐文章于 2024-09-11 21:41:09 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/lvchunyang66/article/details/80254231

版权

决策树是一种基于训练样本的树形结构，用于分类。ID3、C4.5和CART使用贪心策略递归构建。基本步骤包括：遍历变量找最佳分割点，递归分割直到节点纯度足够。变量类型包括数字型和名称型。评价分割点好坏通常通过信息增益、增益率或基尼系数。停止条件通常设定为子节点单一类型记录或记录数低于阈值。防止过拟合，可以采取预剪枝和后剪枝策略。

摘要由CSDN通过智能技术生成

决策树归纳是从有类标号的训练样本中学习决策树，决策树是一种类似于流程图的树结构，其中，每个内部结点（非树叶结点）表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶结点（或终端结点）存放一个类标号。
这里写图片描述
ID3、C4.5、CART都采用贪心（即非回溯的）方法，只考虑当前纯度差最大的情况作为分割点，其中决策树以自顶向下递归的分治方式构造。

决策树构建的基本步骤如下：
1. 开始，所有记录看作一个节点
2. 遍历每个变量的每一种分割方式，找到最好的分割点
3. 分割成两个节点N1和N2
4. 对N1和N2分别继续执行2-3步，直到每个节点足够“纯”为止

决策树的变量可以有两种：
1）数字型（Numeric）：变量类型是整数或浮点数，如前面例子中的“年收入”。用“>=”，“>”,“<”或“<=”作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。
2）名称型（Nominal）：类似编程语言中的枚举类型，变量只能重有限的选项中选取，比如前面例子中的“婚姻情况”，只能是“单身”，“已婚”或“离婚”。使用“=”来分割。

如何评价分割点的好坏？如果一个分割点可以将当前的所有结点分为两类，使得