西瓜书决策树学习笔记

在这里插入图片描述

基本流程

决策树是基于树结构来进行决策的

  • 组成

1 个根结点、若干个内部结点和若干个叶结点

根结点和内部结点对应于属性测试,叶结点对应于决策结果

  • 学习目的

产生一棵泛化能力强的树

  • 基本流程

“分而治之”

决策树的生成是一个递归过程

在这里插入图片描述

  • 递归返回的三个条件
  1. 当前结点包含样本全属于同一类别
  2. 当前属性集为空,或所有样本在所有属性上取值相同
  3. 当前结点包含的样本集合为空

第 2 种情形当前结点标记为叶结点,类别设定为该结点所含样本最多的类别;利用当前结点的后验分布?

第 3 种情形当前结点标记为叶结点,类别设定为其父结点所含样本最多的类别;把父结点的样本分布作为当前结点的先验分布?

划分选择

决策树的关键是如何选择最优划分属性

信息熵

信息熵(information entropy):度量样本集合纯度

  • 数学定义

在这里插入图片描述

信息熵的值越小代表样本集合的纯度越高

信息增益

信息增益(information gain)表示选取的属性对样本纯度提升的效果

  • 数学定义

在这里插入图片描述

某种属性的信息增益越大,说明该属性对样本集合纯度的提升越大

ID3 以信息增益为准则选择划分属性

信息熵和信息增益的区别

信息熵是针对样本集合而言的,越小越好

信息增益是为了选择样本集合中最好的划分属性,越大越好

增益率

增益率(gain ratio)表示选取的属性对样本纯度提升的效果,但对可取数目较多的属性有所抑制

  • 数学定义

在这里插入图片描述

IV(a)称为属性 a 的固有值(intrinsic value),属性 a 的可能取值越多,IV(a)通常越大

信息增益和增益率的区别

信息增益准则对可取值数目较多的属性有所偏好

增益率准则对可取值数目较少的属性有所偏好

C4.5 算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的

基尼值

基尼值用来度量数据集 D 的纯度

  • 数学定义

在这里插入图片描述

基尼指数

基尼系数(Gini index)反应了从数据集 D 中随机抽取两个样本,其类别标记不一致的概率

  • 数学定义

在这里插入图片描述

基尼系数越小,表明数据集合的纯度越高

CART 决策树使用基尼指数来选择划分属性

剪枝(pruning)处理

目的:解决过拟合问题

基本策略
  • 预剪枝(prepruning)

标准:“加枝”后验证集精度能否得到提升

  • 后剪枝(postpruning)

标准:剪枝后验证集精度能否得到提升

后剪枝和预剪枝对比

后剪枝相比预剪枝

  • 保留更多分支——>欠拟合风险小,泛化性能往往更好
  • 生成完全决策树,自底向下考查——>训练时间开销大

连续值

处理方法:连续属性离散化——二分法(C4.5 算法)

n 个元素含 n-1 个元素候选划分点

在这里插入图片描述

区间中位点作为候选划分点

信息增益的划分属性可变形为

在这里插入图片描述
Gain(D,a,t)是样本集 D 基于划分点 t 二分后的信息增益

连续属性可以进行多次划分(a < 5 内可再使用 a < 3 划分)

缺失值

两个问题
  1. 属性值缺失如何选择划分属性
  2. 确定划分属性,如何处理缺失值划分样本

问题 1:使用不缺失的属性值划分属性

在这里插入图片描述

ρ 表示无缺失值样本所占的比例

问题 2:将缺失值样本划入所有类别,概率为不同类别所占比例

多变量决策树

每个属性对应一个轴,d 个属性的样本对应 d 维空间的一个样本点

样本分类<——>在坐标空间中寻找分类边界

分类边界

特点:轴平行,分类边界由若干个与坐标轴平行的分段组成

优点:有较好的可解释性

缺点:预测时间开销大

多变量决策树

能实现“斜划分”甚至更复杂划分的决策树

在这里插入图片描述

非叶结点不针对某个属性,而是对属性的线性组合

学习过程中不是为每个非叶结点寻找一个最优划分属性,而是试图建立一个合适的线性分类器

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值