使用sklearn--Random Forest参数说明，随机森林调参数

最新推荐文章于 2024-08-22 22:15:21 发布

lucas-nlp

最新推荐文章于 2024-08-22 22:15:21 发布

阅读量6.6k

点赞数 6

分类专栏：机器学习随机森林算法

本文链接：https://blog.csdn.net/qq_31747765/article/details/82768752

版权

本文介绍了如何使用sklearn库中的Random Forest进行参数调优，探讨了模型的偏差与方差，以及如何在训练集上平衡准确度与防止过拟合。文章讲解了集成学习的基本概念，特别是Random Forest的特点，如随机属性选择，以降低基模型之间的相关性。在调参策略中，区分了影响准确度和防止过拟合的参数，如子模型数、最大树深度等，并提出了调参的目标和步骤。

摘要由CSDN通过智能技术生成

使用sklearn--Random Forest参数说明（待补充）

资料来源：http://www.cnblogs.com/jasonfreak/p/5657196.html 　　

　　　　　　ps：他/她写的好好

　　　　《机器学习》周志华：第二章偏差与方差，第八章

0. 前言

sklearn提供了sklearn.ensemble库，其中包括随机森林模型(分类)。但之前使用这个模型的时候，要么使用默认参数，要么将调参的工作丢给调参算法（grid search等）。今天想来深究一下到底是如何选择参数，如何进行调参。

学会调参是进行集成学习工作的前提。参数可分为两种，一种是影响模型在训练集上的准确度或影响防止过拟合能力的参数；另一种不影响这两者的其他参数。模型的准确度由其在训练集上的准确度及其防止过拟合的能力所共同决定，所以在调参时，我们主要对第一种参数进行调整，最终达到的效果是：模型在训练集上的准确度和防止过拟合能力的平衡。

1. 集成学习是什么

我们还是花一点时间来说明一下集成学习是什么，如果对此有一定基础的同学可以跳过本节。简单来说，集成学习是一种技术框架，其按照不同的思路来组合基础模型，从而达到其利断金的目的。

　　目前，有三种常见的集成学习框架：bagging，boosting和stacking。国内，南京大学的周志华教授对集成学习有很深入的研究，其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义，概括如下：

　　bagging：从训练集从进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：