1.什么是超参数
超参数(hyper parameters)就是机器学习或深度学习算法中需要预先设置的参数,这些参数不是通过训练数据学习到的参数;原始算法一般只给出超参数的取值范围和含义,根据不同的应用场景,同一个算法的同一超参数设置也不同。
那超参数应该如何设置呢?似乎没有捷径,去尝试不同的取值,比较不同的结果取最好的结果。
本文整理了不同的尝试方法,如下:
RandomSearch
GridSearch
贝叶斯优化(Bayesian optimization)
2. GridSearchCV
暴力穷举是寻找最优超参数一种简单有效的方法,但是对于算法庞大的超参数空间来说,穷举会损耗大量的时间,特别是多个超参数情况下。GridSearchCV的做法是缩减了超参数值的空间,只搜索人为重要的超参数和有限的固定值。同时结合了交叉验证的方式来搜索最优的超参数。
拿lightgbm为例子:
importpandas
aspd
importnumpy
asnp
importmath
importwarnings
importlightgbm
aslgb
fromsklearn.model_selection
importGridSearchCV
fromsklearn.model_selection
importRandomizedSearchCV
lg=lgb.LGBMClassifier(silent=
False)
param_dist={
"max_depth":[
2,
3,
4,
5,
7,
10],
"n_estimators":[
50,
100,
150,
200],
"min_child_samples":[
2,
3,
4,
5,
6]
}
grid_search=GridSearchCV(estimator=lg,n_jobs=
10,param_grid=param_dist,cv=
5,scoring=
"f1",verbose=
5)
grid_search.fit(X_train,y)
grid_search.best_estimator_,grid_search.best_score_
#Fitting5foldsforeachof120candidates,totalling600fits
#[Parallel(n_jobs=10)]:UsingbackendLokyBackendwith10concurrentworkers.
#[Parallel(n_jobs=10)]:Done52tasks|elapsed:2.5s
#[Parallel(n_jobs=10)]:Done142tasks|elapsed:6.6s
#[Parallel(n_jobs=10)]:Done268tasks|elapsed:14.0s
#[Parallel(n_jobs=10)]:Done430tasks|elapsed:25.5s
#[Parallel(n_jobs=10)]:Done600outof600|elapsed:40.6sfinished
#(LGBMClassifier(max_depth=10,min_child_samples=6,n_estimators=200,
#silent=False),0.6359524127649383)
从上面可知,GridSearchCV
搜索过程
模型estimator:lgb.LGBMClassifier
param_grid:模型的超参数,上面例子给出了3个参数,值得数量分别是6,4,5,组合起来的搜索空间是120个
cv:交叉验证的折数(上面例子5折交叉), 算法训练的次数总共为120*5=600
scoring:模型好坏的评价指标分数,如F1值
搜索返回: 最好的模型 best_estimator_和最好的分数https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV
3. RandomSearchCV
和GridSearchCV
一样,RandomSearchCV
也是在有限的超参数空间(人为重要的超参数)中搜索最优超参数。不一样的地方在于搜索超参数的值不是固定,是在一定范围内随