随机森林算法梳理-CSDN博客

本文转载自跟小帅学代码，详情可以扫描下方二维码：

首先来说一下集成学习。集成学习在学术界和工业界都有很高的热度，例如Kaggle竞赛中神挡杀神佛挡杀佛的XGBoost就是一个典型的例子。那么什么是集成学习？最通俗易懂的理解就是："三个臭皮匠，顶个诸葛亮"。把"臭皮匠"组合起来，其决策能力可能超过"诸葛亮"。

根据其训练基学习器的特点将其分为2大类：Boosting和Bagging。

Boosting

Boosting采用串行的方式训练基学习器，各学习器之间相互依赖。与人类的学习过程类似，人们学习的时候总是不断犯错不断去更正，降低下次犯错的概率，Boosting也是Learn from your mistakes。

640?wx_fmt=jpeg

Bagging

Bagging的主要思想是：集体投票决策。Bagging各基学习器之间无强依赖，可以进行并行训练。随机森林（Random Forest）就是一种比较著名的以决策树为基学习器的Bagging算法。因为各个学习器之间无强依赖，所以在训练过程中，随机森林将训练集分为若干子集。

640?wx_fmt=jpeg

结合策略

有了基学习器，我们怎么进行组合呢？这就要说到结合策略了。主要是平均法，投票法和学习法三个结合策略。

平均法

对于数值类的回归预测问题，通常使用的结合策略是平均法，也就是说，对于若干个弱学习器的输出进行平均得到最终的预测输出。可以是一般的mean也可以加权平均。

投票法

对于分类问题的预测，我们通常使用的是投票法。最简单的投票法是相对多数投票法，即少数服从多数。绝对多数投票法稍微复杂一点，在相对多数投票法的基础上，还要求票过半数。否则会拒绝预测。更加复杂的是加权投票法，每个弱学习器的分类票数要乘以一个权重，最终将各个类别的加权票数求和，最大的值对应的类别为最终类别。

学习法

以上两种方法相对比较简单，但是可能学习误差较大。于是就有了学习法，典型代表就是stacking，当使用stacking结合策略时，我们不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，也就是说，我们将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果。在这种情况下，我们将弱学习器称为初级学习器，将用于结合的学习器称为次级学习器。对于测试集，我们首先用初级学习器预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。

随机森林

理解了bagging算法，随机森林(Random Forest)就好理解了。它是Bagging算法的进化版。首先，RF使用了CART决策树作为弱学习器。第二，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部分样本特征，这个数字小于n，为m，然后在这些随机选择的m个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。

640?wx_fmt=jpeg

由于RF在实际应用中的良好特性，基于RF，有很多变种算法，应用也很广泛，不光可以用于分类回归，还可以用于特征转换，异常点检测等。extra trees是RF的一个变种, 原理几乎和RF一模一样。仅有区别有：

对于每个决策树的训练集，RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集，而extra trees一般不采用随机采样，即每个决策树采用原始训练集
在选定了划分特征后，RF的决策树会基于基尼系数，均方差之类的原则，选择一个最优的特征值划分点，这和传统的决策树相同。但是extra trees比较的激进，他会随机的选择一个特征值来划分决策树。因此在某些时候，extra trees的泛化能力比RF更好。