决策树归纳

决策树是一种基于训练样本的树形结构,用于分类。ID3、C4.5和CART使用贪心策略递归构建。基本步骤包括:遍历变量找最佳分割点,递归分割直到节点纯度足够。变量类型包括数字型和名称型。评价分割点好坏通常通过信息增益、增益率或基尼系数。停止条件通常设定为子节点单一类型记录或记录数低于阈值。防止过拟合,可以采取预剪枝和后剪枝策略。
摘要由CSDN通过智能技术生成

决策树归纳是从有类标号的训练样本中学习决策树,决策树是一种类似于流程图的树结构,其中,每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点(或终端结点)存放一个类标号。
这里写图片描述
ID3、C4.5、CART都采用贪心(即非回溯的)方法,只考虑当前纯度差最大的情况作为分割点,其中决策树以自顶向下递归的分治方式构造。

决策树构建的基本步骤如下:
1. 开始,所有记录看作一个节点
2. 遍历每个变量的每一种分割方式,找到最好的分割点
3. 分割成两个节点N1和N2
4. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止

决策树的变量可以有两种:
1) 数字型(Numeric):变量类型是整数或浮点数,如前面例子中的“年收入”。用“>=”,“>”,“<”或“<=”作为分割条件(排序后,利用已有的分割情况,可以优化分割算法的时间复杂度)。
2) 名称型(Nominal):类似编程语言中的枚举类型,变量只能重有限的选项中选取,比如前面例子中的“婚姻情况”,只能是“单身”,“已婚”或“离婚”。使用“=”来分割。

如何评价分割点的好坏?如果一个分割点可以将当前的所有结点分为两类,使得

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值