决策树算法梳理

最新推荐文章于 2021-04-02 00:03:41 发布

老James

最新推荐文章于 2021-04-02 00:03:41 发布

阅读量185

点赞数

分类专栏：机器学习文章标签：决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sanpang2288/article/details/89004782

版权

本文深入介绍了决策树的基础，包括信息论中的熵、联合熵、条件熵和信息增益等概念。接着，讨论了ID3、C4.5和CART三种决策树算法及其应用场景，并详细阐述了决策树生成、剪枝过程。此外，还探讨了如何通过参数调整防止过拟合，以及模型评估方法。最后，提到了sklearn库在决策树中的参数设置与Python绘图技巧。

摘要由CSDN通过智能技术生成

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

信息熵：信息熵是度量样本集合纯度常用的一种指标。

联合熵：联合熵就是度量一个联合分布的随机系统的不确定度。

条件熵：在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。

信息增益：信息增益代表使用属性a带来的纯度提升，信息增益越大，带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。

基尼不纯度：从一个数据集中随机选取子项，度量其被错误的划分到其他组里的概率。

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景决策树的基本步骤：特征选择，决策树生成，决策树剪枝。

决策树生成的过程就是将数据集不断划分成为纯度更高，不确定更小的子集的过程。

ID3算法：ID3的算法计算的是信息增益，缺点是喜欢选择选项多的特征

C4.5算法：在ID3的基础熵增加信息增益率，采用了悲观剪枝，采用了离散化处理连续属性，处理缺失值

CART：采用基尼系数划分数据，同时决定改特征的最优二值切分点，可针对离散和连续型，可以做分类和回归。

3. 回归树原理

建立回归树大致步骤：将预测变量空间 $X_1,X_2,...,X_p)$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法梳理

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）信息熵：信息熵是度量样本集合纯度常用的一种指标。联合熵：联合熵就是度量一个联合分布的随机系统的不确定度。条件熵：在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。信息增益：信息增益代表使用属性a带来的纯度提升，信息增益越大，带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。基尼不纯度：从一个数据集中...
复制链接

扫一扫

专栏目录

老James CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

41万+: 周排名

75万+: 总排名

6435: 访问

: 等级

217: 积分

11: 粉丝

36: 获赞

6: 评论

104: 收藏

私信

关注

热门文章

分类专栏

统计学 4篇
可汗 4篇
编程 1篇
python 3篇
机器学习 5篇

最新评论

SMO算法详解
HUST_wei: 天哪，受益匪浅，彻底搞懂了如何手动实现支持向量机，大佬太厉害了
SMO算法详解
m0_68279997: 请问一下，在引入容错率的那个地方怎么将三个KKT条件简化为两个条件的？
SMO算法详解
CHEN7_98: 哥，写得太行了，好多没看懂的地方都在你这里看明白了，但我想请问一下soft margin svm求出了只关于拉格朗日乘子的目标函数之后，为何根据KKT条件就能够得出是否在边界内外或者是支持向量呢，yi*f(xi) >= 1我理解了是在边界内，后面 = 1和 <=1没太明白是为什么。
SMO算法详解
dlpuzcl: 难得有写的这么详细的。
SMO算法详解
Ackermann_: 这篇文章很详细，很不错

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。