Python 机器学习：超参数调优

最新推荐文章于 2025-02-06 13:04:08 发布

Python中文社区

最新推荐文章于 2025-02-06 13:04:08 发布

阅读量2.9k

点赞数 5

文章标签：算法 python 深度学习人工智能机器学习

本文链接：https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/112975337

版权

本文介绍了机器学习中的超参数概念，并探讨了三种超参数调优方法：GridSearchCV、RandomSearchCV和贝叶斯优化。GridSearchCV通过穷举超参数组合寻找最优值，RandomSearchCV在预设范围内随机搜索，而贝叶斯优化利用高斯过程迭代寻找更优参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是超参数

超参数（hyper parameters）就是机器学习或深度学习算法中需要预先设置的参数，这些参数不是通过训练数据学习到的参数；原始算法一般只给出超参数的取值范围和含义，根据不同的应用场景，同一个算法的同一超参数设置也不同。

那超参数应该如何设置呢？似乎没有捷径，去尝试不同的取值，比较不同的结果取最好的结果。

本文整理了不同的尝试方法，如下：

RandomSearch
GridSearch
贝叶斯优化（Bayesian optimization）

2. GridSearchCV

暴力穷举是寻找最优超参数一种简单有效的方法，但是对于算法庞大的超参数空间来说,穷举会损耗大量的时间，特别是多个超参数情况下。GridSearchCV的做法是缩减了超参数值的空间，只搜索人为重要的超参数和有限的固定值。同时结合了交叉验证的方式来搜索最优的超参数。

拿lightgbm为例子：

import pandas as pd
import numpy as np
import math
import warnings
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

lg = lgb.LGBMClassifier(silent=False)
param_dist = {"max_depth": [2, 3, 4, 5, 7, 10],
              "n_estimators": [50, 100, 150, 200],
              "min_child_samples": [2,3,4,5,6]
             }

grid_search = GridSearchCV(estimator=lg, n_jobs=10, param_grid=param_dist, cv = 5, scoring='f1', verbose=5)
grid_search.fit(X_train, y)
grid_search.best_estimator_, grid_search.best_score_

# Fitting 5 folds for each of 120 candidates, totalling 600 fits
# [Parallel(n_jobs=10)]: Using backend LokyBackend with 10 concurrent workers.
# [Parallel(n_jobs=10)]: Done  52 tasks      | elapsed:    2.5s
# [Parallel(n_jobs=10)]: Done 142 tasks      | elapsed:    6.6s
# [Parallel(n_jobs=10)]: Done 268 tasks      | elapsed:   14.0s
# [Parallel(n_jobs=10)]: Done 430 tasks      | elapsed:   25.5s
# [Parallel(n_jobs=10)]: Done 600 out of 600 | elapsed:   40.6s finished
# (LGBMClassifier(max_depth=10, min_child_samples=6, n_estimators=200,
#                 silent=False), 0.6359524127649383)

从上面可知，GridSearchCV搜索过程