机器学习中的调参思想

最新推荐文章于 2024-05-19 00:23:42 发布

Echoblabla

最新推荐文章于 2024-05-19 00:23:42 发布

阅读量298

点赞数

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/Echoblabla/article/details/107576483

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

对于模型调参，第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫泛化误差

泛化误差

当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们说模型的泛化程度不够，泛化误差大，模型的效果不好。泛化误差受到模型的结构（复杂度）影响。看下面这张图，它准确地描绘了泛化误差与模型复杂度的关系，当模型太复杂，模型就会过拟合，泛化能力就不够，所以泛化误差大。当模型太简单，模型就会欠拟合，拟合能力不够，所以误差也会大。只有当复杂度刚刚好时才能达到我们的泛化误差最小的目标。
在这里插入图片描述
对于随机森林而言：
1）模型太复杂或者太简单，都会让泛化误差高，我们追求的是位于中间的平衡点
2）模型太复杂就会过拟合，模型太简单就会欠拟合
3）对树模型和树的集成模型来说，树的深度越深，枝叶越多，模型越复杂
4）树模型和树的集成模型的目标，都是减少模型复杂度，把模型往图像的左边移动

集成算法的偏差与方差

一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D)，由方差(var)，偏差(bais)和噪声(ε)共同决定。
在这里插入图片描述
偏差：模型的预测值与真实值之间的差异，即每一个红点到蓝线的距离。在集成算法中，每个基评估器都会有自己的偏差，集成评估器的偏差是所有基评估器偏差的均值。模型越精确，偏差越低。
方差：反映的是模型每一次输出结果与模型预测值的平均水平之间的误差，即每一个红点到红色虚线的距离，衡量模型的稳定性。模型越稳定，方差越低。
其中偏差衡量模型是否预测得准确，偏差越小，模型越“准”；而方差衡量模型每次预测的结果是否接近，即是说方差越小，模型越“稳”；噪声是机器学习无法干涉的部分，当偏差和方差都很低的时候，模型的泛化误差就小，在未知数据上的准确性就很高。
在这里插入图片描述

参数调整

我们可以使用网格搜索，我们将使用网格搜索对参数一个个进行调整
GridSearchCV网格搜索
GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。这两个名字都非常好理解。网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个训练和比较的过程。　　GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，他要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。
Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找到最大值。这种方法的主要缺点是比较耗时！　　
所以网格搜索适用于三四个（或者更少）的超参数（当超参数的数量增长时，网格搜索的计算复杂度会呈现指数增长，这时候则使用随机搜索），用户列出一个较小的超参数值域，这些超参数至于的笛卡尔积（排列组合）为一组组超参数。网格搜索算法使用每组超参数训练模型并挑选验证集误差最小的超参数组合。

from sklearn.model_selection import GridSearchCV
param_grid = [{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},] 
forest_reg=RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,                   scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared,housing_labels)

sklearn 根据param_grid的值，首先会评估3×4=12种n_estimators和max_features的组合方式，接下来在会在bootstrap=False的情况下（默认该值为True），评估2×3=6种12种n_estimators和max_features的组合方式，所以最终会有12+6=18种不同的超参数组合方式,而每一种组合方式要在训练集上训练5次，所以一共要训练18×5=90 次，当训练结束后，你可以通过best_params_获得最好的组合方式。

>>>grid_search.best_params_
>{‘max_features’: 8, ‘n_estimators’: 30}
>>>grid_search.best_estimator_
>RandomForestRegressor(bootstrap=True, criterion=‘mse’,max_depth=None,max_features=8, max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None, min_samples_leaf=1,min_samples_split=2,min_weight_fraction_leaf=0.0,n_estimators=30, n_jobs=1,oob_score=False,random_state=None,verbose=0, warm_start=False)

Echoblabla

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的调参思想

对于模型调参，第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫泛化误差泛化误差当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们说模型的泛化程度不够，泛化误差大，模型的效果不好。泛化误差受到模型的结构（复杂度）影响。看下面这张图，它准
复制链接

扫一扫

专栏目录