随机森林基础总结

最新推荐文章于 2024-06-30 17:05:03 发布

马文豪_小码哥

最新推荐文章于 2024-06-30 17:05:03 发布

阅读量314

点赞数

转自：深思海数

640?wx_fmt=jpeg

随机森林（Random Forest）

随机森林（random forest）顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

随机森林主要应用于回归和分类。

随机森林在运算量没有显著提高的前提下提高了预测精度。

640?wx_fmt=jpeg

在建立每一棵决策树的过程中，有两点需要注意 – 采样与完全分裂。

首先是两个随机采样的过程，随机森林对输入的数据要进行行、列的采样。对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为N个，那么采样的样本也为N个。这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。

然后进行列采样，从M个feature中，选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。

一般很多的决策树算法都一个重要的步骤 – 剪枝，但是这里不这样干，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。

可以这样子来理解，每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。

640?wx_fmt=jpeg

在随机森林中，我们将生成很多的决策树，并不像在CART模型里一样只生成唯一的树。当在基于某些属性对一个新的对象进行分类判别时，随机森林中的每一棵树都会给出自己的分类选择，并由此进行“投票”，森林整体的输出结果将会是票数最多的分类选项；而在回归问题中，随机森林的输出将会是所有决策树输出的平均值。

二、随机森林的随机性

随机森林的随机性体现在两个方面。第一是样本的随机性，从训练集中随机抽取一定数量的样本，作为每棵决策树的根节点样本；第二是属性的随机性，在建立每棵决策树时，随机抽取一定数量的候选属性，从中选择最合适的属性作为分裂节点。我们希望随机森林中的基学习器，即决策树“好而不同”。“好”即森林中每一棵决策树泛化性能好，随机森林中的决策树是基于某个随机属性集选择最优属性，这一步可加速收敛；“不同”即森林中决策树的多样性，主要基于样本扰动和属性扰动来实现。