【算法梳理】决策树

最新推荐文章于 2021-06-04 09:41:19 发布

诈胡艺术

最新推荐文章于 2021-06-04 09:41:19 发布

阅读量548

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38019841/article/details/86091382

版权

本文深入探讨了决策树的基础知识，包括信息熵、信息增益、基尼不纯度等概念，以及ID3、C4.5、CART算法的工作原理和应用场景。还介绍了回归树的原理和防止过拟合的方法，如剪枝，并讨论了模型评估的留出法、交叉验证法和自助法。最后提到了使用sklearn库构建决策树的参数详解和Python绘制决策树的技巧。

摘要由CSDN通过智能技术生成

目录

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

3. 回归树原理

4. 决策树防止过拟合手段

5. 模型评估

6. sklearn参数详解，Python绘制决策树

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

熵（信息熵）

度量样本集合纯度最常用的指标。假设样本集合D中第k类样本所占的比例为pk，则D的信息熵定义为：

Ent（D）值越小，D的纯度越高。

联合熵

两个随机变量X，Y的联合分布，可以形成联合熵（Joint Entropy），用H(X, Y)表示。

条件熵

H(X, Y) - H(Y)：

表示(X, Y)发生所包含的熵，减去Y单独发生包含的熵：在Y发生的前提下，X发生新带来的熵。

H(X|Y)推导如下：

用处：决策树的特征选择，实际上使用的信息增益，就是用G(D,A)=H(Y)-H(Y|X)。可以看出在X的条件下，Y的不确定度下降了多少。

相对熵/交叉熵/K-L散度

相对熵，又称互熵，交叉熵，鉴别信息，Kullback-Leible散度等。

互信息

两个随机变量X，Y的互信息，定义为X，Y的联合分布和独立分布乘积的相对熵。

H(X|Y) = H(X) - I(X, Y)。即互信息为0，则随机变量X和Y是互相独立的。

各种熵之间的关系

信息增益(ID3)

属性a对样本D进行划分获得的‘信息增益’定义如下：

Dv表示样本集合D中在属性a上取值为av的样本。信息增益越大意味着属性a进行划分得到的“纯度提升”越大。

信息增益对取值数目较多的属性有偏好。

增益率（C4.5）

定义如下：

IV（a）是属性a的固有值。属性a的可能取值越多，IV（a）通常越大。增益率准则对于取值数目少的属性有偏好。

C4.5不是选择增益率最大的属性，而是采用了一种启发式：先从候选属性中找到信息增益高于平均水平的属性，再从中选择增益率最高的。

基尼不纯度（CART决策树）

数据集D的纯度可以用基尼值（基尼不纯度）来度量：

反应了从数据集D中随机抽取两个样本，其类别标记不一致的概率。Gini（D）越小&

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【算法梳理】决策树

目录1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估6. sklearn参数详解，Python绘制决策树1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）熵（信息熵）度量样本集合纯度最常用的指标。假设样本集合...
复制链接

扫一扫

诈胡艺术 CSDN认证博客专家 CSDN认证企业博客

码龄7年

29: 原创

110万+: 周排名

188万+: 总排名

1万+: 访问

: 等级

424: 积分

9: 粉丝

9: 获赞

3: 评论

31: 收藏

私信

关注

热门文章

最新评论

关于序列最小最优化SMO
Czar0728: 大神您好，我看到SMO选择alpha的时候有一个问题一直搞不懂，“一般首先遍历所有0<alphai<C的样本点”看下是否有违背KKT的，即那些yi * g(xi）！=1的点，但是一般我们都会设定alpha的初始化值是0，那对与所有的样本，我理解第一步应该要找的是yi * g(xi）< 1的点(因为KKT说的是 alphai=0，则yi*g(xi) >=0), 所以我想了很久也没搞明白为什么要首先遍历0<alphai<C的样本点，能否请您讲解？非常感谢！
SVM实战注意点
This_chao 回复江小北: support vector classifier
SVM实战注意点
江小北: SVC是什么？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。