实用 Kaggle 竞赛之 随机森林 Random Forest 的评估及调参

本文介绍了在Kaggle竞赛中使用随机森林模型的实践方法,包括模型评价、防止过拟合的验证集划分以及超参数调优。重点讨论了随机森林的score函数、训练集验证集测试集的划分策略,以及超参数如n_estimators、max_depth、oob_score、min_samples_leaf和max_features的设置。文章强调了在实际应用中避免过拟合和建立有效模型的重要性。
摘要由CSDN通过智能技术生成

“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“

本节内容:

1。评价函数 —— 如何评价模型的好坏

2。测试集、验证集、训练集 —— 防止过拟合的验证集

3。RF 的超参数设置 —— 如何 tune 模型

           - 一颗决策树的形成 n_estimators

           - 随机森林 bootstrapping

           - 数据量太小怎么办 oob_score

           - max_samples_leaf, max_features

上一节我们是讲了 RF 的使用条件及优劣,这一节就继续来讲讲如何使用 RF,尤其是在 Kaggle 建模,或者是其他的生产环境中。

Notes:这里记录一个 data scientist 的好习惯

1。在使用 notebook 的时候,建议先在 cell 中书写函数 function,测试通过后,将 function 写上 notes 之后搬到 .py 文件当中,在 cell 中通过 import 来导入。在后期的 .py 文件中,可以遵循 PEP8 格式进行程序书写,以满足多人合作的工程或学术研究的需求。

2。在模型中,也是首先提取 dataset 中的一部分,来先跑同测试,记录效果好的模型和参数,在晚上让电脑跑整个数据集来获得针对全模型的估计。

3。在数据读入以后(如 pandas.read_csv() ),

在上述 notes2 中,“哪个模型效果好“ 就成了很重要的问题,回答这个问题的就是评价函数 evaluation metrics。

1。评价函数 —— 如何评价模型的好坏

由于这里主要讨论一些实用的方法,因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后,自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。

Regression 模型中的 score 函数指的是 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值