五.分类:决策树问题

一.决策树结构

1案例分析

  • 例题
    案例
  • 树方案
    树流程

二.要点认知

1.纯度认知确

  • 样本中没有两项属于同一类
  • 样本中所有项都属于同一类
    鱼眼图
    • 如图可知,所有的点属于地球的同一类。
    • 如图可知,各个国的点不属于非本国的同一类。

2.定样本集的拆分属性

  • 样本集拆分的分类结果尽可能的单一,多数类占优
  • 衡量集和的纯度,依照纯度进行拆分

3.纯度量化

  • 基尼系数(Gini总体发散性)CART
  • (entropy,信息量,近0则优)
    • 明确信息消耗的多少
  • 信息增益 (Gain)ID3
    • 对纯度提升的程度
  • 信息增益率 C4.5,C5.0

4.ID3步骤

(1)计算

  • 计算当前样本,所有属性的信息信息增益

(2)选择

  • 选择信息增益最大的做为拆分属性,将拆分属性相同的归为同一子样本集

(3)判断(递归)

  • 若拆分属性分类不是单一,继续进行ID3操作,直至属性分类单一、

5.算法比较

算法解释适用
ID3以信息熵增益为衡量标准(选取大的)确定结点应采用的属性
C4.5以信息增益率为衡量标准(选取大的)离散描述属性
连续描述属性
C5.0C4.5加强版大数据集
CART通过构建树,修剪树,评估树来构建二叉树回归树: 终结点连续变量,
分类树: 终结点分类变量

三.实战

1.DecisionTreeClassifier解析

官网解析

参数解释接收默认
criterion衡量分裂质量的功能信息增益/基尼系数‘gini’
splitter节点拆分策略str‘best’
max_depth树最大深度intNone
min_samples_split拆分内部节点所需的最小样本数int2
min_samples_leaf叶节点最小样本数int1
min_weight_fraction_leaf叶节点处的权重总和中的最小加权分数float0.0
random_state估计器的随机性随机拆分样本intNone
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐-import-某人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值