1.什么是超参数
超参数(hyper parameters)就是机器学习或深度学习算法中需要预先设置的参数,这些参数不是通过训练数据学习到的参数;原始算法一般只给出超参数的取值范围和含义,根据不同的应用场景,同一个算法的同一超参数设置也不同。
那超参数应该如何设置呢?似乎没有捷径,去尝试不同的取值,比较不同的结果取最好的结果。
本文整理了不同的尝试方法,如下:
RandomSearch
GridSearch
贝叶斯优化(Bayesian optimization)
2. GridSearchCV
暴力穷举是寻找最优超参数一种简单有效的方法,但是对于算法庞大的超参数空间来说,穷举会损耗大量的时间,特别是多个超参数情况下。GridSearchCV的做法是缩减了超参数值的空间,只搜索人为重要的超参数和有限的固定值。同时结合了交叉验证的方式来搜索最优的超参数。
拿lightgbm为例子:
import pandas as pd
import numpy as np
import math
import warnings
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
lg = lgb.LGBMClassifier(silent=False)
param_dist = {"max_depth": [2, 3, 4, 5, 7, 10],
"n_estimators": [50, 100, 150, 200],
"min_child_samples": [2,3,4,5,6]
}
grid_search = GridSearchCV(estimator=lg, n_jobs=10, param_grid=param_dist, cv = 5, scoring='f1', verbose=5)
grid_search.fit(X_train, y)
grid_search.best_estimator_, grid_search.best_score_
# Fitting 5 folds for each of 120 candidates, totalling 600 fits
# [Parallel(n_jobs=10)]: Using backend LokyBackend with 10 concurrent workers.
# [Parallel(n_jobs=10)]: Done 52 tasks | elapsed: 2.5s
# [Parallel(n_jobs=10)]: Done 142 tasks | elapsed: 6.6s
# [Parallel(n_jobs=10)]: Done 268 tasks | elapsed: 14.0s
# [Parallel(n_jobs=10)]: Done 430 tasks | elapsed: 25.5s
# [Parallel(n_jobs=10)]: Done 600 out of 600 | elapsed: 40.6s finished
# (LGBMClassifier(max_depth=10, min_child_samples=6, n_estimators=200,
# silent=False), 0.6359524127649383)
从上面可知,GridSearchCV
搜索过程
模型estimator:lgb.LGBMClassifier
param_grid:模型的超参数,上面例子给出了3个参数,值得数量分别是6,4,5,组合起来的搜索空间是120个
cv:交叉验证的折数(上面例子5折交叉), 算法训练的次数总共为120*5=600
scoring:模型好坏的评价指标分数,如F1值
搜索返回: 最好的模型 best_estimator_和最好的分数
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV
3. RandomSearchCV
和GridSearchCV
一样,RandomSearchCV
也是在有