随机森林（RF）详解

最新推荐文章于 2024-09-12 12:06:32 发布

ch0831

最新推荐文章于 2024-09-12 12:06:32 发布

阅读量1.1w

点赞数 5

分类专栏：深度学习深度学习，机器学习，人工智能文章标签： M L

本文链接：https://blog.csdn.net/ch0831/article/details/80387930

版权

深度学习，机器学习，人工智能同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 1 订阅

订阅专栏

随机森林（Random Forests）

本文旨在介绍随机森林结构生成的同时，介绍所带来的优缺点。

随机森林是一种重要的基于Bagging的集成学习方法，可以用来做分类、回归等问题。它的组成是由多个弱学习器组成，CART（分类回归树）。

RF的生成过程是由一个到多个CART的生成构成。主要过程如下：

通过对训练数据样本以及属性进行有放回的抽样（针对某一个属性随机选择样本）这里有两种，一种是每次都是有放回的采样，有些样本是重复的，组成和原始数据集样本个数一样的数据集；另外一种是不放回的抽样，抽取出大约60%的训练信息。由此生成一颗CART树，剩下的样本信息作为袋外数据，用来当作验证集计算袋外误差测试模型；把抽取出的样本信息再放回到原数据集中，再重新抽取一组训练信息，再以此训练数据集生成一颗CART树。这样依次生成多颗CART树，多颗树组成森林，并且他们的生成都是通过随机采样的训练数据生成，因此叫随机森林。

RF可以用于数据的回归，也可以用于数据的分类。回归时是由多颗树的预测结果求均值；分类是由多棵树的预测结果进行投票。（后面细讲）

正式由于它的随机性，RF有极强的防止过拟合的特性。由于他是由CART组成，因此它的训练数据不需要进行归一化，因为每课的建立过程都是通过选择一个能最好的对数据样本进行选择的属性来建立分叉，因此有以上好处的同时也带来了一个缺点，那就是忽略了属性与属性之间的关系。

分类：

如果cart树是分类数，那么采用的计算原则就是gini指数。随机森林基于每棵树的分类结果，采用多数表决的手段进行分类。

基尼指数（ CART算法 —分类树）
定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。
即基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

说明:

1、pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)

2、样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和。

当为二分类是，Gini(P) = 2p(1-p)

样本集合D的Gini指数：假设集合中有K个类别，则：

回归：

如果是回归树，则cart树是回归树，采用的原则是最小均方差。即对于任意划分特征（属性）A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：

其中，c1为D1数据集的样本输出均值，c2为D2数据集的样本输出均值。 cart树的预测是根据叶子结点的均值，因此随机森林的预测是所有树的预测值的平均值。

解释：

DecreaseGINI：

对于分类问题（将某个样本划分到某一类），也就是离散变量问题，CART使用Gini值作为评判标准。定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。例如：分为2类，当前节点上有100个样本，属于第一类的样本有70个，属于第二类的样本有30个，则Gini=1-0.7×07-0.3×03=0.42，可以看出，类别分布越平均，Gini值越大，类分布越不均匀，Gini值越小。在寻找最佳的分类特征和阈值时，评判标准为：argmax（Gini-GiniLeft-GiniRight），即寻找最佳的特征f和阈值th，使得当前节点的Gini值减去左子节点的Gini和右子节点的Gini值最大。

Decrease Accuracy