分类树节点分裂

在进行分裂决策时,要先比较每个特征信息增益的大小。

特征的类别有三种情况:类别特征、数值特征以及含缺失值的特征。

类别特征:

ID3算法:先要给出一个阈值,然后计算每个类别的信息增益,选信息增益最大的类别作为分类节点,一直重复这个过程,直到某类别的信息增益率小于事先给定的阈值时。

数值特征

数值特征是要转换为类别特征的。

C4.5算法:是对ID3算法的改进,改进方面包括处理数值特征、处理含缺失值的特征、使用信息增益比代替信息增益以及给出树的剪枝策略等等。

在处理数值特征时,可以通过是最佳分割法和随机分割法两种方法将数值特征转换为类别特征。分别对应了sklearn中splitter参数的best选项和random选项。

随机分割法:

随机去s,使s满足s\epsilon U[X_{min},X_{max}],即找到样本数值的最大值和最小值,随机取一个在这范围之内的数,然后根据这个数就可以将所有的样本数据划分为两类,根据这两个类别分别计算树节点的信息增益。

最佳分割法:

最佳分割法和随机分割法的不同是s值的选取,最佳分割法中的s值是分别选取每个样本值,然后计算其作为分类点的信息增益,最后比较所有样本点作为分类点时的信息增益,信息增益最大的样本点作为最后的分类点。

 信息增益来选择的决策树对类别较多的特征具有天然的倾向性

含有缺失值的特征

用修正的信息增益代替原来的信息增益

树节点的分裂顺序

即在3,4,5哪个节点上先进行分裂处6,7节点。

有两种生长模式:深度优先生长和最佳增益生长,一般当参数max_leaf_nodes使用默认值None时使用深度优先生长,当它被赋予某个数值时使用最佳增益生长。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值