09_决策树

决策树

信息熵的公式及作用

信息增益

认知

if-then结构

历史

​ 分而治之 -------》CLS ----------》

​ 引入信息熵增益 -------》ID3 ----------》

------》 -------》C4.0

​ 引入信息熵增益率 -------》C4.5- --------》

-------》引入Gini指数- -------》CART

分类原理

三要素

特征选择

  • 最重要
  • 方法、方式多样,都基于贪心算法
  • 三种经典指标
    • 信息熵
      • 纯度:
      • 越小越好
      • 对属性值多的偏好
      • image-20210705100045596
    • 信息增益
      • 选择条件后信息熵的变化,避免对属性值多的偏好
      • 越大越好
      • 对属性值少的偏好
    • Gini
      • 利用权重,避免对属性值少的偏好

决策树生成

  • 目的:获取模型

剪枝

减轻过拟合现象

两种

    • 构造时剪枝
    • 加入新节点及其分支前精度>后 -----》 不剪枝
    • 构造完成后剪枝
    • 从叶节点 -----》根节点
    • 去掉节点及其分支>=原节点 -----》 剪枝
  • 精度不变,树(各子树)的高度越小越好

流程

  • 生成节点

  • 循环

    • 终止条件:训练集(当前的)都为同一结果(分类);属性集为空(所有属性都用过)或训练集都为相同属性,标记为当前最多

    • 执行:从属性集A中,进行最优属性划分,选择了属性 a*

    • 循环:

      • 记a* 的某一取值为a^v(循环过程,不重复取值)
      • a^v对应的样本空间所有子集Dv是否为空,为空,其父为叶节点,且样本最多

优劣

优:可解释

劣势:sklearn. tree.DecisionTree的model不支持缺失值数据

使用

决策树demo

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值