机器学习算法之决策树与随机森林的原理和常用参数

本文深入探讨了决策树和随机森林的原理,包括它们的定义、核心问题以及如何防止过拟合。随机森林作为Bagging集成算法的代表,通过构建多个独立的决策树来提升预测准确性。同时,文章还介绍了两者在分类和回归任务中的应用以及常用参数设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

综述:随机森林和决策树一样都可用于分类和回归,然而随机森林的模型结果往往优于决策树。 本篇文章主要讲解以上两种ML算法的原理和常用参数。

一、 原理

1.1 决策树
1.1.1决策树释义

决策树是一种非参数的有监督学习方法。本质上是从训练数据集中归纳出一组决策规则,用来解决分类和回 归问题,规则由:根结点、内部结点、叶子结点(标签)组成的树状图来呈现。

1.1.2 决策树算法要解决两个核心问题:

1、如何从数据表中找出最佳节点和最佳分枝?
1)“不纯度”是决策树特征选择的依据,通常用基尼系数或者信息熵(信息增益)来计算,基尼系数的取值在[0,0.5],信息熵的取值在[0,1]
2)我们需要知道:信息熵对不纯度更加敏感,信息熵作为指标时,计算速度缓慢一些,并且决策树生长的更加“精细”。如果有高维度数据和噪声数据,信息熵更容易过拟合,此时我们应选择基尼系数;反之,如果模型拟合程度低,在训练集和测试集上得分都较低时,我们应选择信息熵。
不过也并非绝对,机器学习的参数选择还是应由具体数据而定。
2、如何让决策树停止生长,防止过拟合?
1)限制树的深度;
2)限制在分支后每个子节点的样本量大小;
3)限制每个节点在分支前必须包含的样本量;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值