Datawhale 西瓜书第四章

1、决策树基本流程

       决策树是模拟树状的决策过程,包括根节点、叶子节点和内部节点。根节点包括样本全集,叶子节点表示决策结果。决策树计算的过程就是寻找一条从根节点到叶子节点的路径。

       基本算法过程为:

2、划分选择

       决策树是递归过程,分为三种情况:

      (1)当前节点包含的样本全属于同一类别,无需化划分。

      (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分。

      (3)当前节点包含的样本集合为空,不能划分。

         具体而言,划分的方法包括

        (1)信息增益。信息增益是使用信息熵来对样本的纯度进行分析。信息熵定义为:

Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}

          信息熵越小,数据集的纯度越高。

        (2)增益率。决策过程包括较多的属性偏好。为了减少属性偏好对决策树的影响,引入的增益率的概念,进行最优划分属性选择,计算公式为:

Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

3、剪枝处理。剪枝处理是为了防止训练过程过拟合而导致的模型泛化性能不佳,包括预剪枝和后剪枝策略等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值