【Scikit-Learn 中文文档】优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN

最新推荐文章于 2024-10-10 07:04:37 发布

DarkStory-celadon

最新推荐文章于 2024-10-10 07:04:37 发布

阅读量192

点赞数

文章标签： ApacheCN Sklearn scikit-learn 文档机器学习

中文文档: http://sklearn.apachecn.org/cn/stable/modules/grid_search.html

英文文档: http://sklearn.apachecn.org/en/stable/modules/grid_search.html

官方文档: http://scikit-learn.org/stable/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们: http://www.apachecn.org/organization/209.html

3.2. 调整估计器的超参数

超参数，即不直接在估计器内学习的参数。在 scikit-learn 包中，它们作为估计器类中构造函数的参数进行传递。典型的例子有：用于支持向量分类器的 C 、kernel 和 gamma ，用于Lasso的 alpha 等。

搜索超参数空间以便获得最好交叉验证分数的方法是可能的而且是值得提倡的。

通过这种方式，构造估计器时被提供的任何参数或许都能被优化。具体来说，要获取到给定估计器的所有参数的名称和当前值，使用:

 
       estimator.get_params()

搜索包括:

估计器(回归器或分类器，例如 sklearn.svm.SVC())
参数空间
搜寻或采样候选的方法
交叉验证方案
计分函数

有些模型支持专业化的、高效的参数搜索策略, 描述如下。在 scikit-learn 包中提供了两种采样搜索候选的通用方法:对于给定的值, GridSearchCV 考虑了所有参数组合；而 RandomizedSearchCV 可以从具有指定分布的参数空间中抽取给定数量的候选。介绍完这些工具后，我们将详细介绍适用于这两种方法的最佳实践。

注意，通常这些参数的一小部分会对模型的预测或计算性能有很大的影响，而其他参数可以保留为其默认值。建议阅读估计器类的相关文档，以更好地了解其预期行为，可能的话还可以阅读下引用的文献。

3.2.1. 网格追踪法–穷尽的网格搜索

GridSearchCV 提供的网格搜索从通过 param_grid 参数确定的网格参数值中全面生成候选。例如，下面的 param_grid:

 
        param_grid = [
  {'C': [1, 10, 100, 1000], 'kernel': ['linear']},
  {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']},
 ]

探索两个网格的详细解释：一个具有线性内核并且C在[1,10,100,1000]中取值；另一个具有RBF内核，C值的交叉乘积范围在[1,10，100,1000]，gamma在[0.001，0.0001]中取值。

GridSearchCV 实例实现了常用估计器 API：当在数据集上“拟合”时，参数值的所有可能的组合都会被评估，从而计算出最佳的组合。

示例:

有关在数字数据集上的网格搜索计算示例，请参阅基于交叉验证的网格搜索参数估计。
有关来自文本文档特征提取器（n-gram计数向量化器和TF-IDF变换器）的网格搜索耦合参数与分类器（这里是使用具有弹性网格的SGD训练的线性SVM 或L2惩罚）使用 pipeline.Pipeline 示例,请参阅用于文本特征提取和评估的示例管道。
有关iris数据集的交叉验证循环中的网格搜索示例, 请参阅嵌套与非嵌套交叉验证。
有关用于同时评估多个指标的GridSearchCV示例，请参阅 cross_val_score 与 GridSearchCV 多指标评价的实证研究。

3.2.2. 随机参数优化

尽管使用参数设置的网格法是目前最广泛使用的参数优化方法, 其他搜索方法也具有更有利的性能。 RandomizedSearchCV 实现了对参数的随机搜索, 其中每个设置都是从可能的参数值的分布中进行取样。这对于穷举搜索有两个主要优势:

可以选择独立于参数个数和可能值的预算
添加不影响性能的参数不会降低效率

指定如何取样的参数是使用字典完成的, 非常类似于为 GridSearchCV 指定参数。此外, 通过 n_iter 参数指定计算预算, 即取样候选项数或取样迭代次数。对于每个参数, 可以指定在可能值上的分布或离散选择的列表 (均匀取样):

 
        {'C': scipy.stats.expon(scale=100), 'gamma': scipy.stats.expon(scale=.1),
  'kernel': ['rbf'], 'class_weight':['balanced', None]}

本示例使用 scipy.stats 模块, 它包含许多用于采样参数的有用分布, 如 expon，gamma，uniform 或者 randint。原则上, 任何函数都可以通过提供一个 rvs （随机变量样本）方法来采样一个值。对 rvs 函数的调用应在连续调用中提供来自可能参数值的独立随机样本。

Warning

The distributions in scipy.stats prior to version scipy 0.16 do not allow specifying a random state. Instead, they use the global numpy random state, that can be seeded via np.random.seed or set usingnp.random.set_state. However, beginning scikit-learn 0.18, the sklearn.model_selection module sets the random state provided by the user if scipy >= 0.16 is also available.

对于连续参数 (如上面提到的 C )，指定连续分布以充分利用随机化是很重要的。这样，有助于 n_iter 总是趋向于更精细的搜索。

示例:

随机搜索和网格搜索的使用和效率的比较：有关随机搜索和网格搜索超参数估计的对比

引用:

Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization, The Journal of Machine Learning Research (2012)

3.2.3. 参数搜索技巧

3.2.3.1. 指定目标度量

默认情况下, 参数搜索使用估计器的评分函数来评估（衡量）参数设置。比如 sklearn.metrics.accuracy_score 用于分类和 sklearn.metrics.r2_score 用于回归。对于一些应用, 其他评分函数将会更加适合 (例如在不平衡的分类, 精度评分往往是信息不足的)。一个可选的评分功能可以通过评分参数指定给 GridSearchCV， RandomizedSearchCV 和许多下文将要描述的、专业化的交叉验证工具。有关详细信息, 请参阅评分参数:定义模型评估规则。

3.2.3.2. 为评估指定多个指标

GridSearchCV 和 RandomizedSearchCV 允许为评分参数指定多个指标。

多指标评分可以被指定为一个预先定义分数名称字符串列表或者是一个得分手名字到得分手的函数或预先定义的记分员名字的映射字典。有关详细信息, 请参阅多指标评估。

在指定多个指标时,必须将 refit 参数设置为要在其中找到 best_params_,并用于在整个数据集上构建 best_estimator_ 的度量标准（字符串）。如果搜索不应该 refit, 则设置 refit=False。在使用多个度量值时,如果将 refit 保留为默认值,不会导致结果错误。

有关示例用法, 请参见 cross_val_score 与 GridSearchCV 多指标评价的实证研究。

3.2.3.3. 复合估计和参数空间

管道：链式评估器描述了如何使用这些工具搜索参数空间构建链式评估器。

3.2.3.4. 模型选择：开发和评估

通过评估各种参数设置，可以将模型选择视为使用标记数据训练网格参数的一种方法。

在评估结果模型时, 重要的是在网格搜索过程中未看到的 held-out 样本数据上执行以下操作: 建议将数据拆分为开发集 (development set,供 GridSearchCV 实例使用)和评估集(evaluation set)来计算性能指标。

这可以通过使用效用函数 train_test_split 来完成。

3.2.3.5. 并行机制

GridSearchCV 和 RandomizedSearchCV 可以独立地评估每个参数设置。如果您的OS支持,通过使用关键字 n_jobs=-1 可以使计算并行运行。有关详细信息, 请参见函数签名。

3.2.3.6. 对故障的鲁棒性

某些参数设置可能导致无法 fit 数据的一个或多个折叠。默认情况下, 这将导致整个搜索失败, 即使某些参数设置可以完全计算。设置 error_score=0 (或`=np.NaN`) 将使程序对此类故障具有鲁棒性,发出警告并将该折叠的分数设置为0(或`NaN`), 但可以完成搜索。

3.2.4. 暴力参数搜索的替代方案

3.2.4.1. 模型特定交叉验证

某些模型可以与参数的单个值的估计值一样有效地适应某一参数范围内的数据。此功能可用于执行更有效的交叉验证, 用于此参数的模型选择。

该策略最常用的参数是编码正则化矩阵强度的参数。在这种情况下, 我们称之为, 计算估计器的正则化路径(regularization path)。

以下是这些模型的列表:

`linear_model.ElasticNetCV`([l1_ratio, eps, …])	Elastic Net model with iterative fitting along a regularization path
`linear_model.LarsCV`([fit_intercept, …])	Cross-validated Least Angle Regression model
`linear_model.LassoCV`([eps, n_alphas, …])	Lasso linear model with iterative fitting along a regularization path
`linear_model.LassoLarsCV`([fit_intercept, …])	Cross-validated Lasso, using the LARS algorithm
`linear_model.LogisticRegressionCV`([Cs, …])	Logistic Regression CV (aka logit, MaxEnt) classifier.
`linear_model.MultiTaskElasticNetCV`([…])	Multi-task L1/L2 ElasticNet with built-in cross-validation.
`linear_model.MultiTaskLassoCV`([eps, …])	Multi-task L1/L2 Lasso with built-in cross-validation.
`linear_model.OrthogonalMatchingPursuitCV`([…])	Cross-validated Orthogonal Matching Pursuit model (OMP)
`linear_model.RidgeCV`([alphas, …])	Ridge regression with built-in cross-validation.
`linear_model.RidgeClassifierCV`([alphas, …])	Ridge classifier with built-in cross-validation.

3.2.4.2. 信息标准

一些模型通过计算一个正则化路径 (代替使用交叉验证得出数个参数), 可以给出正则化参数最优估计的信息理论闭包公式。

以下是从 Akaike 信息标准 (AIC) 或贝叶斯信息标准 (可用于自动选择模型) 中受益的模型列表:

linear_model.LassoLarsIC([criterion, …]) Lasso model fit with Lars using BIC or AIC for model selection

3.2.4.3. 出袋估计

当使用基于装袋的集合方法时，即使用具有替换的采样产生新的训练集，部分训练集保持不用。对于集合中的每个分类器，训练集的不同部分被忽略。

这个省略的部分可以用来估计泛化误差，而不必依靠单独的验证集。此估计是”免费的”，因为不需要额外的数据，可以用于模型选择。

目前该方法已经实现的类以下几个:

`ensemble.RandomForestClassifier`([…])	A random forest classifier.
`ensemble.RandomForestRegressor`([…])	A random forest regressor.
`ensemble.ExtraTreesClassifier`([…])	An extra-trees classifier.
`ensemble.ExtraTreesRegressor`([n_estimators, …])	An extra-trees regressor.
`ensemble.GradientBoostingClassifier`([loss, …])	Gradient Boosting for classification.
`ensemble.GradientBoostingRegressor`([loss, …])	Gradient Boosting for regression.

中文文档: http://sklearn.apachecn.org/cn/stable/modules/grid_search.html

英文文档: http://sklearn.apachecn.org/en/stable/modules/grid_search.html

官方文档: http://scikit-learn.org/stable/

GitHub: https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们: http://www.apachecn.org/organization/209.html

有兴趣的们也可以和我们一起来维护，持续更新中。。。

机器学习交流群: 629470233

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DarkStory-celadon

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

sklearn自学指南(part61)--调整估计器的超参数

小山羊的学习日志

02-22

282

学习笔记，仅供参考，有错必纠文章目录调整估计器的超参数详尽的网格搜索随机参数优化连续减半法寻找最优参数选择`min_resources`和候选数[(略)](https://scikit-learn.org/stable/modules/grid_search.html)每次迭代时的资源数量和候选数量[(略)](https://scikit-learn.org/stable/modules/grid_search.html)选择一个资源[(略)](https://scikit-learn.org/stab

【模型选择与评估02】调整估计器的超参数

zhuhongde的博客

12-03

386

1.参考文献 sklearn文档背景： 超参数，即不直接在估计器内学习的参数。在 scikit-learn 包中，它们作为估计器类中构造函数的参数进行传递。搜索超参数空间以便获得最好分数的方法是可能的而且是值得提倡的。通过这种方式，构造估计器时被提供的任何参数或许都能被优化。具体来说，要获取到给定估计器的所有参数的名称和当前值，使用: estimator.get_params() 搜索包括:...

参与评论您还未登录，请先登录后发表或查看评论

（六）sklearn调整估计器的超参数

Haward

07-29

1202

1、比较随机搜索RandomizedSearchCV和超参数估计的网格搜索GridSearchCV 随机搜索和网格搜索探索完全相同的参数空间。参数设置的结果非常相似，而随机搜索的运行时间则大大降低。随机搜索的性能稍差，尽管这很可能是噪声效应，并且不会延续到保持测试集。在实践中，只选择那些被认为最重要的参数。 import numpy as np from time imp...

机器学习常用网站，sklearn中文使用文档、pytorch中文使用文档

weixin_47566927的博客

11-05

789

1.书栈网书栈网 https://www.bookstack.cn/ 点开之后里面会有很多工具库使用的中文文档这里我再加几个机器学习的工具库的学习文档。 2.sklearn scikit-learn (sklearn) 官方文档中文版 3.Pytorch PyTorch 1.2 中文文档 & 教程 4.深度学习（李沐）《动手学深度学习》(PyTorch版) ...

Scikit-learn 使用手册中文版.zip_SCIKIT-LEARN_Scikit-learn 使用手册中文版_sciki

07-15

Scikit-learn 使用手册中文版

scikit-learn-1.0.2.tar.gz

01-18

在scikit-learn 1.0.2版本中，开发者可能对模型选择、模型评估和特征选择进行了优化。例如，交叉验证（cross-validation）是评估模型性能的关键工具，该版本可能提升了其稳定性和效率。此外，预处理步骤如标准化和...

scikit-learn-1.3.2.tar.gz

01-17

总的来说，"scikit-learn-1.3.2.tar.gz"压缩包包含了这一强大机器学习库的新版本，为用户提供了一系列优化的算法、预处理工具、模型评估方法和深度学习集成。通过探索和使用这个版本，开发者可以提升其机器学习项目...

Python库 | scikit-learn-0.24.2.tar.gz

05-21

资源分类：Python库所属语言：Python 资源全名：scikit-learn-0.24.2.tar.gz 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059

scikit-survival：基于scikit-learn的生存分析

02-04

2. **随机森林生存分析（Random Forest for Survival Analysis）**：利用`scikit-learn`的随机森林模型，通过预测风险分数来估计生存概率。可以使用`RandomForestSurvivalRegression`类。 3. **基于深度学习的生存...

scikit-learn cookbook （中文版）

04-19

scikit-learn cookbook （中文版）, 文档中的代码可以直接复制运行。

机器学习实战 | SKLearn最全应用指南

ShowMeAI研究中心

03-21

1万+

本篇内容详解scikit-learn工具库的用法，覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。

聚类算法、无监督学习、K均值算法及其优化函数

woahxy的博客

07-10

534

聚类算法无监督学习：将无标签样本分为不同的两类或者多类，称为聚类算法K均值算法K均值算法是一个迭代算法，共两个步骤1.簇分配：遍历图中每个样本，根据每个样本点离那个聚类中心近，从而将该样本点分配给该聚类中心，一开始的聚类中心是随机生成的（也是最小化代价函数的过程）2.移动聚类中心：算出两簇点各自的均值位置，然后将聚类中心移动到各自的均值位置处。（也是选择u值最小化代价函数J）3.再次重复以上的两个步骤再次寻找新的聚类中心位置 C(i)代表当前的簇的序号，uk代表第k个聚类中心的位置 K均值的优化目标

scikit-learn sklearn 0.18 中文文档

weixin_33709609的博客

07-18

523

为什么80%的码农都做不了架构师？>>> ...

Sklearn 0.21 中文文档校对活动 | ApacheCN