掌握回归模型的参数评估及超参数调优

最新推荐文章于 2022-11-06 12:24:17 发布

麻瓜与AI奇遇记

最新推荐文章于 2022-11-06 12:24:17 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_41226196/article/details/115184745

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

掌握回归模型的参数评估及超参数调优

对模型超参数进行调优(调参)：

对模型得优化不止局限于对模型算法的优化，比如：岭回归对线性回归的优化是通过在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是，大家是否想过这样的问题：在L2正则化中参数 𝜆 应该选择多少？是0.01、0.1、还是1？到目前为止，我们只能凭经验或者瞎猜，能不能找到一种方法找到最优的参数 𝜆 ？事实上，找到最佳参数的问题本质上属于最优化的内容，因为从一个参数集合中找到最佳的值本身就是最优化的任务之一，我们脑海中浮现出来的算法无非就是：梯度下降法、牛顿法等无约束优化算法或者约束优化算法，但是在具体验证这个想法是否可行之前，我们必须先认识两个最本质概念的区别。

参数与超参数：
我们很自然的问题就是岭回归中的参数 𝜆 和参数w之间有什么不一样？事实上，参数w是我们通过设定某一个具体的 𝜆 后使用类似于最小二乘法、梯度下降法等方式优化出来的，我们总是设定了 𝜆 是多少后才优化出来的参数w。因此，类似于参数w一样，使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数，类似于 𝜆 一样，我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为超参数。

模型参数是模型内部的配置变量，其值可以根据数据进行估计。
具体来讲，模型参数有以下特征：

进行模型预测时需要模型参数
模型参数值可以定义模型功能
模型参数用数据估计或数据学习得到
模型参数一般不由实践者手动设置
模型参数通常作为学习模型的一部分保存
参数是机器学习算法的关键，它们通常由过去的训练数据中总结得出。

模型超参数是模型外部的配置，其值无法从数据中估计。

模型超参数常应用于估计模型参数的过程中。
模型超参数通常由实践者直接指定。
模型超参数通常可以使用启发式方法来设置。
模型超参数通常根据给定的预测建模问题而调整。

网格搜索GridSearch：
class sklearn.model_selection.GridSearchCV(estimator, param_grid, , scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2n_jobs’, error_score=nan, return_train_score=False)

GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。
这两个概念都比较好理解，网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个循环和比较的过程。
GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，它要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。这也是我通常不会使用GridSearchCV的原因，一般会采用后一种RandomizedSearchCV随机参数搜索的方法。

网格搜索结合管道：使用Pipeline和GridSearchCV选择降维

网格搜的思想非常简单，比如你有2个超参数需要去选择，那你就把所有的超参数选择列出来分别做排列组合。举个例子： $\lambda = 0.01,0.1,1.0$ 和 $\alpha = 0.01,0.1,1.0$ ,你可以做一个排列组合，即：{[0.01,0.01],[0.01,0.1],[0.01,1],[0.1,0.01],[0.1,0.1],[0.1,1.0],[1,0.01],[1,0.1],[1,1]} ，然后针对每组超参数分别建立一个模型，然后选择测试误差最小的那组超参数。换句话说，我们需要从超参数空间中寻找最优的超参数，很像一个网格中找到一个最优的节点，因此叫网格搜索。

随机搜索 RandomizedSearchCV() ：

class sklearn.model_selection.RandomizedSearchCV(estimator, param_distributions, , n_iter=10, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2n_jobs’, random_state=None, error_score=nan, return_train_score=False)

网格搜索相当于暴力地从参数空间中每个都尝试一遍，然后选择最优的那组参数，这样的方法显然是不够高效的，因为随着参数类别个数的增加，需要尝试的次数呈指数级增长。有没有一种更加高效的调优方式呢？那就是使用随机搜索的方式，这种方式不仅仅高校，而且实验证明，随机搜索法结果比稀疏化网格法稍好(有时候也会极差，需要权衡)。参数的随机搜索中的每个参数都是从可能的参数值的分布中采样的。RandomizedSearchCV的使用方法其实是和GridSearchCV一致的，但它以随机在参数空间中采样的方式代替了GridSearchCV对于参数的网格搜索，在对于有连续变量的参数时，RandomizedSearchCV会将其当作一个分布进行采样这是网格搜索做不到的，它的搜索能力取决于设定的n_iter参数。
与网格搜索相比，这有两个主要优点：