决策树算法梳理

最新推荐文章于 2022-11-14 13:16:27 发布

happy1yao

最新推荐文章于 2022-11-14 13:16:27 发布

阅读量999

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41940752/article/details/88976566

版权

本文介绍了决策树算法的基础概念，包括信息熵、联合熵、条件熵、信息增益和基尼不纯度。讲解了ID3、C4.5和CART算法的工作原理及应用场景，强调了防止过拟合的策略，如剪枝方法和决策树参数调整。此外，还探讨了模型评估中的自助法和准确度区间估计。

摘要由CSDN通过智能技术生成

信息论基础（熵联合熵条件熵信息增益基尼不纯度）
a. 熵
信息熵
假设集合D中有y类样本，第k类的样本出现频率为Pk,则样本D的熵为

其中，当样本 DD 中 |y|∣y∣ 类样本均匀分布时，这时信息熵最大，纯度最小，熵为

当样本D中只有一类样本，此时信息熵最小，纯度最大，熵为

** 联合熵**
因此如果在x的基础上加入了一个y，那么联合熵H(x,y) ，一定大于等于H(x)，H(y)，当且仅当加入的是常量的情况下，等号才成立。例如掷硬币，熵是1枚硬币，联合熵是2枚，肯定是联合更不确定了，熵更大。
信息熵
在某个条件确定的基础上，另一件事发生的概率H(y|x),确定性更大，熵更小。
b. 信息增益
假定在样本D中有某个离散特征 a有 V 个可能的取值，若使用特征 a 来对样本集 D 进行划分，则会产生 V个分支结点，其中第 v 个分支结点样本记为Dv，特征 a 对样本集 D 进行划分所获得的“信息增益”为

信息增益越大，表示使用特征a来对样本集进行划分所获得的纯度提升越大。
c.基尼系数
假定当前样本集合 D 中第 k 类样本所占的比例为 Pk，则 D 的基尼系数为
在这里插入图片描述
2. 决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。决策树是一种贪心算法，每次选取的分割数据的特征都是当前的最佳选择，并不关心是否达到最优。在ID3中，每次根据“最大信息增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分。
C4.5针对ID3采用的信息增益度量存在一个缺点，它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)。但是较多取值的属性来进行划分带来的问题是它的泛化能力比较弱，不能够对新样本进行有效的预测。为了避免这个不足，C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(

最低0.47元/天解锁文章

happy1yao

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树算法梳理

信息论基础（熵联合熵条件熵信息增益基尼不纯度）a. 熵信息熵假设集合D中有y类样本，第k类的样本出现频率为Pk,则样本D的熵为其中，当样本 DD 中 |y|∣y∣ 类样本均匀分布时，这时信息熵最大，纯度最小，熵为当样本D中只有一类样本，此时信息熵最小，纯度最大，熵为** 联合熵**因此如果在x的基础上加入了一个y，那么联合熵H(x,y) ，一定大于等于H(x)，H(y...
复制链接

扫一扫

专栏目录