随机森林算法（有监督学习）

最新推荐文章于 2022-02-11 21:25:13 发布

daydayup_668819

最新推荐文章于 2022-02-11 21:25:13 发布

阅读量8.4k

点赞数 3

分类专栏： AIOps 机器学习文章标签：随机森林有监督学习

本文链接：https://blog.csdn.net/daydayup_668819/article/details/81156095

版权

一、随机森林算法的基本思想
随机森林的出现主要是为了解单一决策树可能出现的很大误差和overfitting的问题。这个算法的核心思想就是将多个不同的决策树进行组合，利用这种组合降低单一决策树有可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。
具体来讲，随机森林是用随机的方式建立一个森林，这个随机性表述的含义我们接下来会讲。随机森林是由很多的决策树组成，但每一棵决策树之间是没有关联的。在得到森林之后，当对一个新的样本进行判断或预测的时候，让森林中的每一棵决策树分别进行判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

二、随机森林算法的构建过程
随机森林的构建需要有决策树的基础，不懂的童鞋需要先了解决策树算法的构建过程。对于随机森林来讲，核心的问题是如何利用一个数据集构建多个决策树，这个需要利用的就是随机的思想。在构建随机森林时需要利用两个方面的随机性选取：数据的随机性选取和待选特征的随机选取。
2.1、数据的随机选取
首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果