随机森林学习笔记

最新推荐文章于 2022-10-24 15:01:11 发布

lukaslong

最新推荐文章于 2022-10-24 15:01:11 发布

阅读量291

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 基本概念及特性

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

在建立每一棵决策树的过程中，有两点需要注意 - 采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样。对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为N个，那么采样的样本也为N个。这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。然后进行列采样，从M 个feature中，选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤 - 剪枝，但是这里不这样干，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。

按这种算法得到的随机森林中的每一棵都是很弱的，但是大家组合起来就很厉害了。我觉得可以这样比喻随机森林算法：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。作为对比，Boosting Tree中各个决策树都是全能王，后面的全能王在前辈的基础上改进了学习，在某些难以区分的方面进行了改进和加强。对于输入的待检测对象，只有通过了所有的全能王的一致认可才可最终确定为目标对象，在前面任一阶段没通过认可即被驳回。

随机森林的过程请参考Mahout的random forest。

整理转载自：

http://blog.sina.com.cn/s/blog_618985870101ia1b.html

lukaslong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林学习笔记

1. 基本概念及特性随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。在建立每一棵决策树的过程中，有两点需
复制链接

扫一扫