随机森林算法框架

最新推荐文章于 2024-03-25 21:55:04 发布

qq_27018963

最新推荐文章于 2024-03-25 21:55:04 发布

阅读量2.1k

点赞数 5

分类专栏：机器学习算法文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/qq_27018963/article/details/86666696

版权

本文介绍了随机森林算法，包括集成学习的基础知识、随机森林的原理、算法推导、应用场景和参数调优。随机森林是一种基于Bagging的集成学习方法，通过结合多个决策树进行分类和回归，具有高准确率、抗噪声能力和并行化特性。同时，文章讨论了随机森林与其他集成方法如Boosting的区别，并探讨了如何选择和调整随机森林的关键参数。

摘要由CSDN通过智能技术生成

随机森林框架梳理

1. 基础知识
- 1.1 何为集成学习
- 1.2 集成学习一般流程
- 1.3 模型融合方法
- 1.4 如何选择基分类器
2. 随机森林简介
3. 随机森林算法推导
4. 随机森林算法分析
4. 随机森林算法应用场景
5. 随机森林算法sklearn实现
6. 随机森林算法参数调优
7. 参考资料

1. 基础知识

1.1 何为集成学习

面对一个机器学习问题，通常有两种策略。一种是研发人员尝试各种模型，选择其中表现最好的模型做重点调参优化。这种策略类似于奥运会比赛，通过强强竞争来选拔最优的运动员，并逐步提高成绩。另一种重要的策略是集各家之长，如同贤明的君主广泛地听取众多谋臣的建议，然后综合考虑，得到最终决策。后一种策略的核心，是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器

1.2 集成学习一般流程

集成学习一般可分为以下3个步骤。
（1）找到误差互相独立的基分类器。
（2）训练基分类器。
（3）合并基分类器的结果。
合并基分类器的方法有voting和stacking两种。前者是用投票的方式，将获得最多选票的结果作为最终的结果。后者是用串行的方式，把前一个基分类器的结果输出到下一个分类器，将所有基分类器的输出结果相加（或者用更复杂的算法融合，比如把各基分类器的输出作为特征，使用逻辑回归作为融合模型进行最后的结果预测）作为最终的输出。

1.3 模型融合方法

Boosting

Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。
Boosting的过程很类似于人类学习的过程，我们学习新知识的过程往往是迭代式的，第一遍学习的时候，我们会记住一部分知识，但往往也会犯一些错误，对于这些错误，我们的印象会很深。第二遍学习的时候，就会针对犯过错误的知识加强学习，以减少类似的错误发生。不断循环往复，直到犯错误的次数减少到很低的程度。