决策树算法梳理

本文介绍了决策树算法的基础概念,包括信息熵、联合熵、条件熵、信息增益和基尼不纯度。讲解了ID3、C4.5和CART算法的工作原理及应用场景,强调了防止过拟合的策略,如剪枝方法和决策树参数调整。此外,还探讨了模型评估中的自助法和准确度区间估计。
摘要由CSDN通过智能技术生成
  1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
    a. 熵
    信息熵

    假设集合D中有y类样本,第k类的样本出现频率为Pk,则样本D的熵为
    在这里插入图片描述
    其中,当样本 DD 中 |y|∣y∣ 类样本均匀分布时,这时信息熵最大,纯度最小,熵为
    在这里插入图片描述
    当样本D中只有一类样本,此时信息熵最小,纯度最大,熵为
    在这里插入图片描述
    ** 联合熵**
    因此如果在x的基础上加入了一个y,那么联合熵H(x,y) ,一定大于等于H(x),H(y),当且仅当加入的是常量的情况下,等号才成立。例如掷硬币,熵是1枚硬币,联合熵是2枚,肯定是联合更不确定了,熵更大。
    信息熵
    在某个条件确定的基础上,另一件事发生的概率H(y|x),确定性更大,熵更小。
    b. 信息增益
    假定在样本D中有某个离散特征 a有 V 个可能的取值 ,若使用特征 a 来对样本集 D 进行划分,则会产生 V个分支结点,其中第 v 个分支结点样本记为Dv,特征 a 对样本集 D 进行划分所获得的“信息增益”为
    在这里插入图片描述

信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。
c.基尼系数
假定当前样本集合 D 中第 k 类样本所占的比例为 Pk,则 D 的基尼系数为
在这里插入图片描述
2. 决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分。
C4.5针对ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)。但是较多取值的属性来进行划分带来的问题是它的泛化能力比较弱,不能够对新样本进行有效的预测。为了避免这个不足,C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值