“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“
本节内容:
1。评价函数 —— 如何评价模型的好坏
2。测试集、验证集、训练集 —— 防止过拟合的验证集
3。RF 的超参数设置 —— 如何 tune 模型
- 一颗决策树的形成 n_estimators
- 随机森林 bootstrapping
- 数据量太小怎么办 oob_score
- max_samples_leaf, max_features
上一节我们是讲了 RF 的使用条件及优劣,这一节就继续来讲讲如何使用 RF,尤其是在 Kaggle 建模,或者是其他的生产环境中。
Notes:这里记录一个 data scientist 的好习惯
1。在使用 notebook 的时候,建议先在 cell 中书写函数 function,测试通过后,将 function 写上 notes 之后搬到 .py 文件当中,在 cell 中通过 import 来导入。在后期的 .py 文件中,可以遵循 PEP8 格式进行程序书写,以满足多人合作的工程或学术研究的需求。
2。在模型中,也是首先提取 dataset 中的一部分,来先跑同测试,记录效果好的模型和参数,在晚上让电脑跑整个数据集来获得针对全模型的估计。
3。在数据读入以后(如 pandas.read_csv() ),
在上述 notes2 中,“哪个模型效果好“ 就成了很重要的问题,回答这个问题的就是评价函数 evaluation metrics。
1。评价函数 —— 如何评价模型的好坏
由于这里主要讨论一些实用的方法,因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后,自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。
Regression 模型中的 score 函数指的是