随机森林原理

随机森林是由大量决策树组成的,通过随机样本选择和属性子集来创建树,防止过拟合。每个决策树独立预测,最终结果由多数投票决定。与bagging不同,随机森林在节点分裂时限制了特征选择,增加了模型多样性。
摘要由CSDN通过智能技术生成

什么是随机森林

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

对于每个决策树,用以下过程生成:

  1. 假如有N个样本,则有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本

  2. 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。

  3. 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。

  4. 按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林是一种集成学习算法,它由多个决策树组成。每个决策树都是一个分类器,通过对输入样本进行多次随机采样和特征选择来构建。在随机森林中,每个决策树都会根据随机选择的特征和样本进行训练,并且通过投票或平均来决定最终的分类结果。 随机森林的几个重要原理如下: 1. 随机性:随机森林中引入两个随机性,分别是对样本的随机采样和对特征的随机选择。通过这两个随机性的引入,可以避免过拟合,并提高模型的泛化能力。 2. 决策树的构建:随机森林中的每个决策树都是通过对样本的随机采样和对特征的随机选择来构建的。采用随机采样可以保证每个决策树都是基于不同的样本集训练的,增加了模型的多样性。而对特征的随机选择可以避免某些特征对模型的过度依赖。 3. 集成学习:随机森林通过对每个决策树的分类结果进行投票或平均来得到最终的分类结果。这样可以减少单个决策树的误差,并提高整体模型的准确性。 4. 抗噪能力:由于随机森林中的每个决策树都是基于不同的样本集和特征集训练的,因此它对噪声和缺失值具有很好的鲁棒性,对于异常值和噪声的影响相对较小。 总结起来,随机森林通过构建多个决策树,并通过集成学习的方式来提高模型的性能和鲁棒性。它具有较好的泛化能力、抗噪能力和计算效率,是一种常用的机器学习算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值