决策树

本文深入介绍了决策树的基本概念,包括递归终止条件、选择最优划分属性的方法如信息增益、增益率和基尼指数。此外,还探讨了决策树处理过拟合的策略,包括预剪枝和后剪枝,以及连续值处理和缺失值处理的方法。
摘要由CSDN通过智能技术生成

目录

Part I: 基本定义

Part II: 基本流程

递归终止条件:

Part III: 如何选择最优划分属性

信息增益(inforamtion gain)

增益率(gain ratio)

基尼指数(Gini index)

Part IV: 决策树处理过拟合

剪枝处理-预剪枝

剪枝处理-后剪枝

Part V: 连续值处理

Part VI: 缺失值处理

Reference:


Part I: 基本定义

一般的, 一棵决策树包含一个根节点, 若干个内部节点和若干个叶节点; 叶节点对应于决策结果, 其他每个节点则对应与一个属性测试; 每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集.

 

Part II: 基本流程

 

决策树的生成是一个递归过程.

递归终止条件:

1) 当前节点包含的样本全属于同一类, 无需划分;

2) 当前属性集为空, 或所有样本在所有属性上取值相同, 无法划分;

3) 当前节点包含的样本集合为空, 不能划分;

 

Part III: 如何选择最优划分属性

决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高.

信息增益(inforamtion gain)

“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合\large D中第\large k类样本所占的比例为 \large p_k(k=1, 2, ..., |Y|),则  \large D的信息熵定义为

  • \large Ent(D)的值越小,则D的纯度越高.
  • \large Ent(D)的最小值为0.

信息增益(information gain)定义为:

一般而言, 信息增益越大, 意味着使用属性a来进行划分所获得的"纯度提升越大.因此, 我们可用信息增益来进行决策树的划分属性选择. 即在上述流程图中选择\large a^* = \arg\max_{a \in A} Gain(D, a).

ID3决策树学习算法就是以信息增益为准则来选择划分属性.

 

增益率(gain ratio)

为减少对于属性值较多的属性产生的偏好, 采用了增益率来选择最优划分属性. 增益率(gain ratio)定义为:

其中:

称为属性\large a的“固有值” [Quinlan, 1993] ,属性 \large a 的可能取值数目越多(即\large V越大),则  \large IV(a) 的值通常就越大.

存在的问题是:

增益率准则对可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值