大白话讲解随机森林

最新推荐文章于 2024-09-13 19:35:48 发布

qusongzhixiasha

最新推荐文章于 2024-09-13 19:35:48 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习统计学习面试文章标签：随机森林 CART ID3 决策树 C4.5

本文链接：https://blog.csdn.net/qusongzhixiasha/article/details/100073582

版权

机器学习同时被 3 个专栏收录

3 篇文章 1 订阅

订阅专栏

统计学习

1 篇文章 0 订阅

订阅专栏

面试

1 篇文章 0 订阅

订阅专栏

因为马上秋招了，记录下自己的理解，自认为随机森林理解的很透彻。最主要的是要讲随机森林和adaboost/gbdt/xgboost进行横向对比学的才有意义。没时间排版了，毕竟内容才是最重要的，对不？开始。

一、随机，指的是随机选取一份数据里面的样本数量和随机选取哪个特征。森林，指的是多颗决策树组成的机构(一大片树)。一句话你肯定不懂。随机森林就是用随机的方式建立一片森林。

具体一点。比如一份数据有10个特征和100个样本，随机抽取两个特征，选取100个样本，这样就可以生成一棵树。固定两个特征，随机选取100个样本当中的10个样本，又生成一棵树（都是有放回抽样）。随机选取两个特征，随机选取50个样本，又生成一棵树。等等吧。就是特征选取可以随机，样本选取可以数量随机，又可以将特征和样本都随机选取。

二、说完了随机森林基本概念，讲一下随机森林构成及算法。一句话，随机森林基树中决策树可以是ID3、C4.5、CART。解释下：

ID3算法只适用于离散型变量（某一属性样本取值为固定几类，比如性别、瓜种类）。用ID3算法（最大信息增益策略）生成的树最后叶子节点输出的是某个类别数值（1或0或2等），这时候随机森林预测结果就是著名的少数服从多数原则，统计一下所有树预测出的哪个类别最多就是哪个类别。

C4.5很复杂（信息增益率策略），既可以处理离散值也可以处理连续值。C4.5怎么处理连续值的这里不展开讲，现在知道C4.5生成的每棵树叶子结点都输出一个连续值（33,55,123,1.5等等），这时候随机森林就将每棵树输出的数值加起来取平均值作为随机森林的输出值。

CART树是分类与回归合体（分类用基尼，回归用方差和）。记住cart是二叉树，随机森林将每棵树输出结果加起来取平均。

三、讲到哪了？有点蒙。现在只说完了随机森林内部这个森林可以怎么构造。都知道了随机森林内部结构，再学一下ID3、C4.5和CART解法就完事了。搞懂单独的随机森林根本不复杂。下面说一下RF的优点，当然一堆树参谋一件事的结果，肯定超过一个树自己心思的结果。三个臭皮匠顶一个诸葛亮。

说完了了，其他博客我还要说gbdt、xgboost、adaboost怎么回事。并将他们三者对比。再写一下C4.5怎么处理连续值。决策树怎么处理缺失值。CART回归怎么计算的，与C4.5计算连续值方法区别。