决策树算法——机器学习（理论+图解+python代码）

最新推荐文章于 2024-08-04 21:08:26 发布

风弦鹤

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量3.7w

点赞数 58

分类专栏： Python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huacha__/article/details/80919426

版权

本文详细介绍了决策树的学习流程，包括基本流程、划分选择（信息增益、增益率、基尼指数）、剪枝处理（预剪枝、后剪枝）、连续值与缺失值处理，并探讨了多变量决策树的概念。此外，还提供了房价数据集的决策树算法Python实现。

摘要由CSDN通过智能技术生成

前言

暑假打算吃透一本书叫《机器学习》，大家也亲切的叫它西瓜书，看完决策树这部分想做做总结，虽然几年前对决策树的知识就有点印象，但是我发现现在又有了很多新的收获。

一、基本流程

二、划分选择

三、剪枝处理

四、连续与缺失值

五、多变量决策树

六、房价数据集的决策树算法python实现

一、基本流程

决策树（decision tree）是一类常见的机器学习算法，它是基于树结构来进行决策的。

——“这是好瓜吗？”

——“它的颜色是青绿色的、根蒂是蜷缩的、敲声是......，所以结论是：这是个好瓜”。

以上，为了给好瓜坏瓜分类，我们要回答不同瓜的不同属性，来帮助我们判断。

图1. 这是一棵决策树

叶子结点就对应我们的决策结果，其它的根节点和内部节点就对应于一个属性测试。决策树学习的目的就是为了产生一棵泛化能力强，即处理未见事例能力强的决策树。

二、划分选择

决策树学习的关键就是如何选择最优划分属性，也就是找到上面图中为什么要选择“色泽”属性作为根节点的理由，以及在接下来的划分中，为什么要选择该划分属性的理由。

1、信息增益

著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性，下面这个图（不是西瓜的例子了，是我之前整理的，关于得病与否的例子）在14个样本中，yes=9个，no=5个，此时信息熵=-(9/14*log(9/14)+

最低0.47元/天解锁文章

关注

58
点赞
踩
426

收藏

觉得还不错? 一键收藏
16
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。