python代码设置超参数_Python 机器学习：超参数调优

最新推荐文章于 2024-10-13 09:26:07 发布

饿狼可乐

最新推荐文章于 2024-10-13 09:26:07 发布

阅读量2.4k

点赞数

文章标签： python代码设置超参数

本文链接：https://blog.csdn.net/weixin_34351588/article/details/113504108

版权

本文介绍了机器学习中的超参数概念及其重要性，包括GridSearchCV、RandomSearchCV和贝叶斯优化（Bayesian optimization）三种超参数调优方法。GridSearchCV通过穷举超参数组合找到最优值，RandomSearchCV则在预设范围内随机搜索，而贝叶斯优化利用高斯过程迭代寻找最优参数。文章以lightgbm和XGBRegressor为例展示了如何应用这些方法，并对比了它们的效果。

摘要由CSDN通过智能技术生成

1.什么是超参数

超参数(hyper parameters)就是机器学习或深度学习算法中需要预先设置的参数，这些参数不是通过训练数据学习到的参数；原始算法一般只给出超参数的取值范围和含义，根据不同的应用场景，同一个算法的同一超参数设置也不同。

那超参数应该如何设置呢？似乎没有捷径，去尝试不同的取值，比较不同的结果取最好的结果。

本文整理了不同的尝试方法，如下：

RandomSearch

GridSearch

贝叶斯优化(Bayesian optimization)

2. GridSearchCV

暴力穷举是寻找最优超参数一种简单有效的方法，但是对于算法庞大的超参数空间来说,穷举会损耗大量的时间，特别是多个超参数情况下。GridSearchCV的做法是缩减了超参数值的空间，只搜索人为重要的超参数和有限的固定值。同时结合了交叉验证的方式来搜索最优的超参数。

拿lightgbm为例子：

importpandas

aspd

importnumpy

asnp

importmath

importwarnings

importlightgbm

aslgb

fromsklearn.model_selection

importGridSearchCV

fromsklearn.model_selection

importRandomizedSearchCV

lg=lgb.LGBMClassifier(silent=

False)

param_dist={

"max_depth":[

10],

"n_estimators":[

50,

100,

150,

200],

"min_child_samples":[

}

grid_search=GridSearchCV(estimator=lg,n_jobs=

10,param_grid=param_dist,cv=

5,scoring=

"f1",verbose=

grid_search.fit(X_train,y)

grid_search.best_estimator_,grid_search.best_score_

#Fitting5foldsforeachof120candidates,totalling600fits

#[Parallel(n_jobs=10)]:UsingbackendLokyBackendwith10concurrentworkers.

#[Parallel(n_jobs=10)]:Done52tasks|elapsed:2.5s

#[Parallel(n_jobs=10)]:Done142tasks|elapsed:6.6s

#[Parallel(n_jobs=10)]:Done268tasks|elapsed:14.0s

#[Parallel(n_jobs=10)]:Done430tasks|elapsed:25.5s

#[Parallel(n_jobs=10)]:Done600outof600|elapsed:40.6sfinished

#(LGBMClassifier(max_depth=10,min_child_samples=6,n_estimators=200,

#silent=False),0.6359524127649383)

从上面可知，GridSearchCV

搜索过程

模型estimator：lgb.LGBMClassifier

param_grid：模型的超参数，上面例子给出了3个参数，值得数量分别是6，4，5，组合起来的搜索空间是120个

cv：交叉验证的折数(上面例子5折交叉)，算法训练的次数总共为120*5=600

scoring：模型好坏的评价指标分数，如F1值

搜索返回: 最好的模型 best_estimator_和最好的分数https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV

3. RandomSearchCV

和GridSearchCV

一样，RandomSearchCV

也是在有限的超参数空间(人为重要的超参数)中搜索最优超参数。不一样的地方在于搜索超参数的值不是固定，是在一定范围内随