决策树概念梳理

目录

决策树定义

决策树构建基本步骤

为什么找到最好的分割点是关键

如何量化纯度

信息熵

信息增益

信息增益比

决策树算法


决策树定义

决策树(Decision Tree)是一种简单且广泛使用的分类器,一种非参数的监督学习方法,即通过训练数据(训练集)来构建模型的决策规则,可以对未知的数据(测试集)进行决策分类。

 

决策树构建基本步骤

1. 开始,所有记录看作一个节点

2. 遍历每个变量的每一种分割方式,找到最好的分割点(关键)

3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止

 

为什么找到最好的分割点是关键

一个分割点可以将当前的所有节点分为两类,如果使得分类后的集合只有一种分类结果,则该集合纯,如果分类后的集合还有许多分类结果,则该集合不纯。

如果一个分割点可以将当前的所有节点分为两类,使得每一类都很纯,这就是一个好分割点。

一般很难找到这样的分割点使分割后每一类都很纯,所以构建决策树采用贪心算法,使分割后纯度差最大的情况作为分割点,那么需要对这个纯度差进行量化。

 

如何量化纯度

信息熵

使用信息熵来衡量这种不确定度(非纯度),熵越大,越不纯

常用的信息熵1:熵(Entroty)

 

常用的信息熵2:基尼指数(Gini Index)

 

信息增益(偏向于取值较多的特征)

我们希望在分类以后能够降低熵的大小,使之变纯一些,这种分类后熵变小的判定标准可以用信息增益(Information Gain)来衡量,它表示两个信息熵的差值,信息增益越大越佳,区分样本的能力更强,选择信息增益最大的特征属性进行分类最佳。

信息增益公式为:g(D,A) = H(D) - H(D|A) 

g(D,A):样本D基于特征A分类后的信息增益

H(D):样本D原本的信息熵

H(D|A) :样本D基于特征A分类后的信息熵

 

信息增益比(偏向于取值较少的特征)

问题:信息增益存在偏向于选择取值较多的特征(即分的类别交多的特征)的问题

改进:引入惩罚机制,对树分支过多的情况进行惩罚,来减少信息增益率失效的几率

信息增益比公式:

 

惩罚参数InstrinsicInfo计算公式:

 

决策树算法(算法之间特征选择的标准不同)

1. ID3:在决策树生成过程中,以信息增益为特征选择的准则。

缺点:ID3用信息增益作为标准,存在偏向于选择取值较多的特征的问题

2. C4.5:在决策树生成过程中,以信息增益比为特征选择的准则。

        改进:相比信息增益,信息增益比引入惩罚机制,对树分支过多的情况进行惩罚,偏向于取值较少的特征

3. CART:对回归树用平方误差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值