【Spark MLlib】（五）随机森林（Random Forest(1)

懒得理你i-

于 2024-04-30 09:04:59 发布

阅读量590

点赞数 7

分类专栏：程序员文章标签： spark-ml 随机森林算法

本文链接：https://blog.csdn.net/e846815793/article/details/138334507

版权

	- 阈值：从特征值中选取、等步长选取最大最小值之间的值
+ 叶子节点的值：叶子所属数据的均值（回归）、对应类别（分类）
+ 截止条件：达到叶子节点数上限、继续划分无法使误差减小

在这里插入图片描述
在决策树的训练中，如上图所示，就是从根节点开始，不断的分裂，直到触发截止条件，在节点的分裂过程中要解决的问题其实就两个：

随机森林

随机森林就是构建多棵决策树投票，在构建多棵树过程中，引入随机性，一般体现在两个方面，一是每棵树使用的样本进行随机抽样，分为有放回和无放回抽样。二是对每棵树使用的特征集进行抽样，使用部分特征训练。

在训练过程中，如果单机内存能放下所有样本，可以用多线程同时训练多棵树，树之间的训练互不影响。

随机森林是由多个决策树构成的森林，算法分类结果由决策树的投票结果得到，其属于集成学习中的bagging方法。算法的主要原理如下：

在这里插入图片描述

假设为一棵决策树，其中每个决策树的抽样方式为重抽样，独立抽样次，每次随机抽取个样本，就可组成个训练集数据集，且它们是相互独立同分布的。
单棵决策树的生长原则遵循：每次从数据集的全部特征属性中随机选取个来训练，并比较评估效果。选择内节点的分裂属性中评估效果最好的属性进行分裂，并且遵循节点不纯度的原则。决策树由根节点遍历向下分裂。那么由一系列的决策树组合得到随机森林，其中是独立同分布的随机变量。
对于分裂后的2个或以上的子节点，继续进行分裂直

关注