随机森林算法及其实现（Random Forest）

最新推荐文章于 2024-09-17 21:19:44 发布

勤奋的可乐

最新推荐文章于 2024-09-17 21:19:44 发布

阅读量747

点赞数

分类专栏：人工智能算法文章标签：算法随机森林机器学习 python 聚类 k-means 人工智能

本文链接：https://blog.csdn.net/ai333888/article/details/132589235

版权

随机森林是一种集成学习算法，由多棵决策树组成，通过集成思想进行分类。每棵树独立生成，采用随机抽样的训练样本和特征，降低过拟合风险。随机森林在准确性、处理高维数据和评估特征重要性等方面表现出色，广泛应用于各种场景。Python中可使用scikit-learn库实现随机森林。

摘要由CSDN通过智能技术生成

1 什么是随机森林？

作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛，参赛者对随机森林的使用占有相当高的比例。此外，据我的个人了解来看，一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出，Random Forest在准确率方面还是相当有优势的。

那说了这么多，那随机森林到底是怎样的一种算法呢？

如果读者接触过决策树（Decision Tree）的话，那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义我们会在下边部分讲到。

其实从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。