随机森林--你想到的，都在这了

最新推荐文章于 2024-08-07 00:22:51 发布

mantchs

最新推荐文章于 2024-08-07 00:22:51 发布

阅读量1.1k

点赞数 1

分类专栏： machine learning 文章标签：机器学习 ML 随机森林模型算法

本文链接：https://blog.csdn.net/weixin_41510260/article/details/94987861

版权

随机森林是一种基于决策树的集成学习方法，通过Bagging策略和特征随机选择增强模型的泛化能力。文章详细介绍了随机森林的定义、工作原理、影响因素、处理缺失值的方法、OOB（袋外数据）的概念及其优缺点，同时探讨了过拟合问题，并提供了代码实现链接。随机森林在处理高维数据和不平衡数据集时表现出色，但可能存在过拟合和部分特征权重不可信的问题。

摘要由CSDN通过智能技术生成

文章目录

1.什么是随机森林

1.1 Bagging思想

Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练，通过多次这样的结果，进行投票获取平均值作为结果输出，这就极大可能的避免了不好的样本数据，从而提高准确度。因为有些是不好的样本，相当于噪声，模型学入噪声后会使准确度不高。

举个例子：

假设有1000个样本，如果按照以前的思维，是直接把这1000个样本拿来训练，但现在不一样，先抽取800个样本来进行训练，假如噪声点是这800个样本以外的样本点，就很有效的避开了。重复以上操作，提高模型输出的平均值。

1.2 随机森林

Random Forest(随机森林)是一种基于树模型的Bagging的优化版本，一棵树的生成肯定还是不如多棵树，因此就有了随机森林，解决决策树泛化能力弱的特点。(可以理解成三个臭皮匠顶过诸葛亮)

而同一批数据，用同样的算法只能产生一棵树，这时Bagging策略可以帮助我们产生不同的数据集。Bagging策略来源于bootstrap aggregation：从样本集（假设样本集N个数据点）中重采样选出Nb个样本（有放回的采样，样本数据点个数仍然不变为N），在所有样本上，对这n个样本建立分类器（ID3\C4.5\CART\SVM\LOGISTIC），重复以上两步m次，获得m个分类器，最后根据这m个分类器的投票结果&#