python决策树算法分析数据_python 数据分析算法（决策树）

最新推荐文章于 2024-07-11 09:58:56 发布

YIDI's

最新推荐文章于 2024-07-11 09:58:56 发布

阅读量571

点赞数

文章标签： python决策树算法分析数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34185033/article/details/114417453

版权

本文详细介绍了Python中的决策树算法，包括构造和剪枝两个阶段。决策树通过选择最佳属性作为节点，以降低信息熵来提高数据纯度。介绍了ID3和C4.5算法，C4.5对ID3进行了优化，如信息增益率、悲观剪枝和处理连续属性及缺失值的方法。此外，还讨论了过拟合现象及其预防措施。

摘要由CSDN通过智能技术生成

决策树基于时间的各个判断条件，由各个节点组成，类似一颗树从树的顶端，然后分支，再分支，每个节点由响的因素组成

决策树有两个阶段，构造和剪枝

构造：构造的过程就是选择什么属性作为节点构造，通常有三种节点

1. 根节点：就是树的最顶端，最开始那个节点 (选择哪些属性作为根节点)

2. 内部节点：就是树中间的那些节点　　　　(选择哪些属性作为子节点)

3. 叶节点：就是树最底部的节点，也就是决策的结果(什么时候停止并得到目标状态，叶节点)

剪枝：实现不需要太多的判断，同样可以得到不错的结果，防止过拟合现象发生

过拟合百度百科直观了解一下(https://baike.baidu.com/item/%E8%BF%87%E6%8B%9F%E5%90%88/3359778)

简单介绍就是为了得到一致假设而使假设变得过度严格称为过拟合。

预剪枝是在决策树构造前进行剪枝，在构造过程中对节点进行评估，如果某个节点的划分，在验证集中不能带来准确性的提升，划分则无意义当成叶节点不做划分

后剪枝是在生成决策树后再进行剪枝，通常会从决策树的叶节点开始，逐层向上对每个节点进行评估，减掉与保留差准确性差别不大，或者减掉改节点字数，能在验证集中带来准确性提升，就可以剪枝。

信息熵：表示了信息的不确定度，下面是计算公式，信息熵越大纯度越低

当不确定性越大，包含的信息量就越大，信息熵就越高

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。