传统机器学习笔记5——随机森林

I松风水月

已于 2022-10-25 11:19:37 修改

阅读量1.4k

点赞数 2

分类专栏：机器学习文章标签：机器学习 1024程序员节

于 2022-10-24 15:01:11 首次发布

本文链接：https://blog.csdn.net/qq_38683460/article/details/127488050

版权

机器学习专栏收录该内容

9 篇文章 4 订阅

订阅专栏

前沿

上篇博文我们介绍了什么是决策树的算法原理，有不懂的小伙伴可以回到前面看看：传统机器学习笔记4——决策树，这篇博文我们继续来看下传统机器学习算法之随机森林。随机森林是一种由决策树构成的（并行）集成算法，属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能，同时也有很好的稳定性，广泛应用在各种业务场景中。从字面上也能看到随机森林主要有两个特性：随机和森林，一个使它具有抗过拟合能力，一个使它更加精准。在介绍随机森林算法之前，我们先看下什么是集成学习。

一.集成学习

1.1.集成学习

在训练数据的时候，我们通过训练多个个体学习器，在通过结合策略将他们集成起来，形成一个更强的学习器，就是集成学习。通俗的理解，比如一个班里面有个全能学霸，什么科目都擅长，但是呢又有几个偏科生，他们只擅长一门或者几门学科，那么在考试的时候呢我们就可以让这些偏科生分别做他们擅长的试卷，最终集合成一个完成的所有科目的答案，这就是集成学习的思想，即三个臭皮匠，顶个诸葛亮。

1.2.个体学习器

上面我们提到个体学习器，他是相对于集成学习的一个概念，我们之前介绍的跟多模型都是个体学习器，比如决策树，逻辑回归，朴树贝叶斯等。个体学习器代表的是单个学习器，集成学习代表的是多个学习器的结合。

若集成中只包含同种类型的个体学习器，叫做同质集成，个体学习器称作基学习器。例如随机森林中全是决策树集成。
若集成中包含不同类型的个体学习器，叫做异质集成，个体学习器称作组件学习器。例如同时包含决策树和神经网络进行集成。

1.3.集成学习的核心问题

1.3.1.使用什么样的个体学习器

个体学习器不能太弱，需要有一定的准确性。
个体学习器之间要具有多样性，即存在差异性。

1.3.2.如何选择合适的结合策略构建强学习器

并行组合方式，例如随机森林。
传统组合方式，例如boosting树模型。

1.4.Bagging

1.4.1.Bootstrap Sampling

随机森林是并行模型，Bagging是并行式集成学习方法最著名的代表。下面我们先介绍下Bagging。在介绍Bagging之前，我们还需要了解一个东西，叫做自助采样法，即我们常说的Bootstrap Sampling，什么是自助采样法呢？直接看下面的解释：

给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中。
上述过程重复m轮，我们得到m个样本的采样集，初始训练集中有的样本在采样集中多次出现，有的则从未出现，约63.2%的样本出现在采样集中，而未出现的约36.8%的样本可用作验证集来对后续的泛化性能进行包外估计。

1.4.2.Bagging

Bagging是Bootstrap aggregating的缩写，是在Boostrap Sampling基础上构建的，上述的采样过程我们可以重复T次，采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，然后将这些基学习器进行结合。在对预测输出进行结合时，Bagging 通常对分类任务使用简单投票法，对回归任务使用简单平均法，这就是Bagging 的基本流程。如下图所示：
在这里插入图片描述
从偏差-方差分解的角度看，Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等易受到样本扰动的学习器上效用更明显。

二.随机森林

上面预备知识介绍完，我们正式进入随机森林算法的学习

2.1.随机森林

随机森林简称RF(Random Forest)，是一种基于树模型的Bagging的优化版本，核心思想还是Bagging，只是做了一些特有的改进，即RF使用CART决策树作为基学习器，随机森林算法实现过程如下：

输入为样本集 $D=\left\{\left(x, y_1\right),\left(x_2, y_2\right), \ldots,\left(x_m, y_m\right)\right\}$
对于 $t = 1, 2, 3, ... T$ :

对训练集进行第 $t$ 次随机采样，共采集 $m$ 次，得到包含 $m$ 个样本的采样集 $D_{T}$ 。
用采样集 $D_{T}$ 训练第 $T$ 个决策树模型 $D_{T}(x)$ ，在训练决策树模型的节点的时候，在节点上所有的样本特征中选择一部分样本特征，在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。

分类场景，则 $T$ 个基模型（决策树）投出最多票数的类别为最终类别。