实用 Kaggle 竞赛之随机森林 Random Forest 的评估及调参

最新推荐文章于 2024-08-05 22:29:26 发布

moonmilo

最新推荐文章于 2024-08-05 22:29:26 发布

阅读量1.8k

点赞数 1

分类专栏：技术博客文章标签：机器学习 Kaggle 随机森林

本文链接：https://blog.csdn.net/moonmilo/article/details/99511340

版权

本文介绍了在Kaggle竞赛中使用随机森林模型的实践方法，包括模型评价、防止过拟合的验证集划分以及超参数调优。重点讨论了随机森林的score函数、训练集验证集测试集的划分策略，以及超参数如n_estimators、max_depth、oob_score、min_samples_leaf和max_features的设置。文章强调了在实际应用中避免过拟合和建立有效模型的重要性。

摘要由CSDN通过智能技术生成

“本文内容的诉求为实用、易上手，所以理论的内容以及公式只做少量的解释，并不着重涉及。“

本节内容：

1。评价函数 —— 如何评价模型的好坏

2。测试集、验证集、训练集 —— 防止过拟合的验证集

3。RF 的超参数设置 —— 如何 tune 模型

- 一颗决策树的形成 n_estimators

- 随机森林 bootstrapping

- 数据量太小怎么办 oob_score

- max_samples_leaf, max_features

上一节我们是讲了 RF 的使用条件及优劣，这一节就继续来讲讲如何使用 RF，尤其是在 Kaggle 建模，或者是其他的生产环境中。

Notes：这里记录一个 data scientist 的好习惯

1。在使用 notebook 的时候，建议先在 cell 中书写函数 function，测试通过后，将 function 写上 notes 之后搬到 .py 文件当中，在 cell 中通过 import 来导入。在后期的 .py 文件中，可以遵循 PEP8 格式进行程序书写，以满足多人合作的工程或学术研究的需求。

2。在模型中，也是首先提取 dataset 中的一部分，来先跑同测试，记录效果好的模型和参数，在晚上让电脑跑整个数据集来获得针对全模型的估计。

3。在数据读入以后（如 pandas.read_csv() ），

在上述 notes2 中，“哪个模型效果好“ 就成了很重要的问题，回答这个问题的就是评价函数 evaluation metrics。

1。评价函数 —— 如何评价模型的好坏

由于这里主要讨论一些实用的方法，因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后，自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。

Regression 模型中的 score 函数指的是