《机器学习实战》3.树模型（决策树）总结

最新推荐文章于 2023-07-04 02:55:08 发布

张先生的blog

最新推荐文章于 2023-07-04 02:55:08 发布

阅读量614

点赞数

分类专栏：机器学习实战文章标签：机器学习实战机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rujin_shi/article/details/78962769

版权

本文总结了《机器学习实战》中的决策树相关内容，包括ID3算法、过拟合问题及解决方案、递归结束条件、数据处理、算法流程、优缺点。此外，还探讨了数学函数、列表操作、集合与类型检查、str.index方法和pickle模块的应用。

摘要由CSDN通过智能技术生成

前言

本文主要总结了《机器学习实战》第三章———决策树中的若干问题，以及一些函数的用法（对比）。

第一部分心得

1. 关于决策树的生成

决策树的生成算法有：ID3（本章使用）、CART、C4.5。对于ID3而言，筛选特征的原则为——最大信息增益原则。在介绍最大信息增益之间，我们首先要了解一个概念——熵(Entropy) :在信息论与概率统计中，熵是表示随机变量不确定性的度量。信息量与事件概率有关（信息量的多少是与事件发生即概率的大小成反比
）。设X是一个取有限个值的离散随机变量，X=xi （i=1,2…,n）。则符号xi的信息定义为：

为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值：
<对数以2和e为底时，熵的单位分别叫做比特（bit）和奈特（nat）>

2.关于过拟合问题

如果一个模型非常适合训练数据，但要对非训练集的真实数据进行预测就不能使人满意，这就是过拟合问题（Overfitting）

最低0.47元/天解锁文章

张先生的blog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。