【Spark MLlib】(五)随机森林(Random Forest(1)

	- 阈值:从特征值中选取、等步长选取最大最小值之间的值
+ 叶子节点的值:叶子所属数据的均值(回归)、对应类别(分类)
+ 截止条件:达到叶子节点数上限、继续划分无法使误差减小

在这里插入图片描述
在决策树的训练中,如上图所示,就是从根节点开始,不断的分裂,直到触发截止条件,在节点的分裂过程中要解决的问题其实就两个:

  • 分裂点:一般就是遍历所有特征的所有特征值,选取impurity最大的分成左右孩子节点,impurity的选取有信息熵(分类),最小均方差(回归)等方法
  • 预测值:一般取当前最多的class(分类)或者取均值(回归)

随机森林

随机森林就是构建多棵决策树投票,在构建多棵树过程中,引入随机性,一般体现在两个方面,一是每棵树使用的样本进行随机抽样,分为有放回和无放回抽样。二是对每棵树使用的特征集进行抽样,使用部分特征训练。

在训练过程中,如果单机内存能放下所有样本,可以用多线程同时训练多棵树,树之间的训练互不影响。

三、随机森林算法原理

随机森林是由多个决策树构成的森林,算法分类结果由决策树的投票结果得到,其属于集成学习中的bagging方法。算法的主要原理如下:

在这里插入图片描述

  1. 假设为一棵决策树,其中每个决策树的抽样方式为重抽样,独立抽样次,每次随机抽取个样本,就可组成个训练集数据集,且它们是相互独立同分布的。
  2. 单棵决策树的生长原则遵循:每次从数据集的全部特征属性中随机选取个来训练,并比较评估效果。选择内节点的分裂属性中评估效果最好的属性进行分裂,并且遵循节点不纯度的原则。决策树由根节点遍历向下分裂。那么由一系列的决策树组合得到随机森林,其中是独立同分布的随机变量。
  3. 对于分裂后的2个或以上的子节点,继续进行分裂直
  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值