机器学习算法之决策树与随机森林的原理和常用参数

Bigredisthecoolest

于 2021-10-02 17:48:17 发布

阅读量1.8k

点赞数

文章标签：算法决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigrediszuicool/article/details/120584903

版权

本文深入探讨了决策树和随机森林的原理，包括它们的定义、核心问题以及如何防止过拟合。随机森林作为Bagging集成算法的代表，通过构建多个独立的决策树来提升预测准确性。同时，文章还介绍了两者在分类和回归任务中的应用以及常用参数设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

综述：随机森林和决策树一样都可用于分类和回归，然而随机森林的模型结果往往优于决策树。本篇文章主要讲解以上两种ML算法的原理和常用参数。

一、原理

1.1 决策树

1.1.1决策树释义

决策树是一种非参数的有监督学习方法。本质上是从训练数据集中归纳出一组决策规则，用来解决分类和回归问题，规则由：根结点、内部结点、叶子结点（标签）组成的树状图来呈现。

1.1.2 决策树算法要解决两个核心问题：

1、如何从数据表中找出最佳节点和最佳分枝？
1）“不纯度”是决策树特征选择的依据，通常用基尼系数或者信息熵（信息增益）来计算，基尼系数的取值在[0,0.5]，信息熵的取值在[0,1]
2）我们需要知道：信息熵对不纯度更加敏感，信息熵作为指标时，计算速度缓慢一些，并且决策树生长的更加“精细”。如果有高维度数据和噪声数据，信息熵更容易过拟合，此时我们应选择基尼系数；反之，如果模型拟合程度低，在训练集和测试集上得分都较低时，我们应选择信息熵。
不过也并非绝对，机器学习的参数选择还是应由具体数据而定。
2、如何让决策树停止生长，防止过拟合？
1）限制树的深度；
2）限制在分支后每个子节点的样本量大小；
3）限制每个节点在分支前必须包含的样本量；

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。