随机森林(Random Forest) -- 原理及Python实现

最新推荐文章于 2022-07-17 23:20:05 发布

我的她像朵花

最新推荐文章于 2022-07-17 23:20:05 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习文章标签：随机森林 random forest python实现随机森林分类、回归

本文链接：https://blog.csdn.net/mmm_jsw/article/details/84528561

版权

1. 基本介绍

随机森林（Random Forest，简称RF）是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。
随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一刻决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为哪一类。
在建立每一棵决策树的过程中，有两点需要注意——采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样。对于行采样，进行有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为N个，那么采样的样本也为N个。这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。

2. 随机森林的分类

随机森林用于分类时，采用n个决策树分类，将分类结果用简单投票得到最终分类，提高准确率。
随机森林时对决策树的集成，其不同之处如下：

采样差异：从含m个样本的数据集中有放回采样，得到含m个样本的采样集用于训练，保证每个决策树的训练样本不完全一样；

特征选择差异：每个决策树的k个分类特征时所在特征中随机选择的（k需要调参）。

随机森林需要调整的参数：

决策树的个数m；

特征属性的个数k；

递归次数（决策树的深度）；

实现流程

导入数据并将特征转为float形式；
将数据集合分成几份，方便交叉验证；
构造数据子集（随机采样），并在指定特征个数（假设m个，调参）下选择最优特征；
构造决策树（决策树的深度）；
创建随机森林（多个决策树的结合）；
输入测试集并进行测试，输出测试结果。

3. 随机森林的优点

在当前的很多数据集上，相对于其他算法有着很大的优势；

能够处理高纬度（feature）的数据，并且不用做特征选择；

在训练完后，能够给出哪些feature比较重要；

创建随机森林时，对generalization error使用的是无偏估计；

训练速度快；

在训练过程中，能够监测到feature间的相互影响；

容易做成并行化方法；

理解、实现简单。

4. 随机森林的代码实现

在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种Extra Trees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小，调参方法基本相同，本文只关注于RF的调参。

RF框架参数：