随机森林 + 梯度提升树 算法小结

决策分类树
决策分类树是一种用于预测离散数值的一种数据结构,基本原理是遍历每一个特征和每一个特征的阈值,使得在进行节点分解时,找到合适的特征或者分隔阈值,从而使得两个子分支的熵最大,熵最大直观的理解(以预测是否晴天为例)就是左分支都是晴天,而右分支都是雨天,也就是每个子分支的晴天和雨天的比例最大化,远离1:1的比例

决策回归树
决策回归树是一种用于预测连续数值的一种数据结构,基本原理是遍历每一个特征和每一个特征的阈值,使得在进行节点分解时,找到合适的特征或者分隔阈值,从而使得两个子分支的均方差最小化,均方差最小化直观的理解(以预测人类寿命为例)就是左分支的平均寿命和最终寿命的方差加上右分支的平均寿命和最终寿命的方差最小化,注意对于回归树而言,每个叶子节点的数值等于包含在叶子节点中的数值的平均值。

由于随机森林分类树和随机森林回归树原理类似,所以以下使用回归树作为总结:
随机森林回归树
随机森林回归树是基于决策回归树的构建的,基本原理就是类似于我们成语:三个臭皮匠顶一个诸葛亮,用多颗回归树的平均来最为最终的结果,训练数据时,每个树使用一部分数据进行训练,互不干扰,所以随机森林多颗回归树的训练可以并行进行,一般来说,每个树为了达到在自身训练范围内的均方差最小化的效果,所以随机森林的每颗回归树的层数都比较深,每个树之间是没有关联的

梯度提升回归树
梯度提升回归树也是基于多颗决策回归树的构建的,但和随机森林不同的是,后面一个树的训练目标是前面一棵树的残差,所谓的残差就是前面一个树的结果和目标结果的差值,比如目标寿命值(90,80,70,100), 前面一个树预测出来的值是(80,100,60,90),那么后面一棵树要预测的值就变成了预测寿命(90-80,80-100,70-60,100-90),这就是所谓的残差,这样每一颗都是学习了部分的预测值,最终的预测值就是所有这些树预测结果值相加的结果

梯度提升树vs随机森林
1.梯度提升回归树的训练是串行的,速度肯定比随机森林差好多,不过它的效果大部分情况下比随机森林好,
2.对于随机森林来说,回归树的数量越多,就越不容易过拟合,也就是越健壮,而梯度提升树不是这样:随着回归树数量的增加,一开始效果确实越来越好,但是随着回归树数量到达一个阈值,就很容易发生过拟合,训练中判断是否发生过拟合的最简单的方式就是看训练数据的方差 和 验证数据(这部分数据没有参与)的方差,如果两者相差很大,那就表明发生了过拟合现象
3.梯度提升树一般来说比随机森林的层数要低,因为梯度提升树追求的是多颗回归树之间的协作,它不需要每棵树都像随机森林的回归树一样要达到最好的回归效果,而且层数越深反倒容易过拟合.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林梯度提升算法都是常用的集成学习算法,用于解决分类和回归问题。它们在处理不同类型的数据和解决不同类型的问题时有一些区别,下面是它们的介绍和选择方法: 随机森林随机森林是一种基于决策的集成学习算法。它通过构建多个决策,并通过投票或平均的方式来进行预测。以下是选择随机森林的一些考虑因素: 1. 随机森林适用于处理高维数据和大规模数据集,因为它可以自动选择特征子集进行训练。 2. 随机森林对于处理离散型和连续型特征都很有效。 3. 随机森林可以处理缺失值和异常值,而且对于不平衡数据集也有较好的表现。 4. 随机森林可以评估特征的重要性,帮助我们理解数据集。 梯度提升算法梯度提升算法是一种迭代的集成学习算法,通过逐步优化模型来减少预测误差。以下是选择梯度提升算法的一些考虑因素: 1. 梯度提升算法在处理小规模数据集和低维数据时表现较好。 2. 梯度提升算法对于处理连续型特征和离散型特征都很有效。 3. 梯度提升算法对于处理异常值和噪声数据比较敏感,需要进行数据预处理。 4. 梯度提升算法可以通过调整参数来控制模型的复杂度和拟合程度。 综上所述,选择随机森林还是梯度提升算法取决于你的数据集特征、问题类型和性能要求。如果你的数据集是高维的、大规模的,并且需要处理缺失值和异常值,那么随机森林可能是一个不错的选择。如果你的数据集是小规模的、低维的,并且对模型的拟合程度有较高要求,那么梯度提升算法可能更适合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值