随机网格搜索RandomizedSearchCV

恒c

已于 2024-02-04 17:54:01 修改

阅读量1.2k

点赞数 17

文章标签： python 机器学习集成学习

于 2024-02-01 10:15:19 首次发布

本文链接：https://blog.csdn.net/asddoa/article/details/135967278

版权

本文介绍了随机网格搜索在sklearn中的实现原理，指出其在搜索效率和精度上的优势，以及如何通过调整迭代次数控制子空间大小。通过房价数据集实例演示了如何使用RandomizedSearchCV进行超参数调优。

摘要由CSDN通过智能技术生成

随机网格搜索的原理

在sklearn中，随机抽取参数子空间并在子空间中进行搜索的方法叫做随机网格搜索RandomizedSearchCV。由于搜索空间的缩小，需要枚举和对比的参数组的数量也对应减少，整体搜索耗时也将随之减少，因此：

当设置相同的全域空间时，随机搜索的运算速度比枚举网格搜索快很多。

当设置相同的训练次数时，随机搜索可以覆盖的空间比枚举网格搜索大很多。

同时，绝妙的是，随机网格搜索得出的最小损失与枚举网格搜索得出的最小损失很接近。

可以说，是提升了运算速度，又没有过多地伤害搜索的精度。

不过，需要注意的是，随机网格搜索在实际运行时，并不是先抽样出子空间，再对子空间进行搜索，而是仿佛“循环迭代”一般，在这一次迭代中随机抽取1组参数进行建模，下一次迭代再随机抽取1组参数进行建模，由于这种随机抽样是不放回的，因此不会出现两次抽中同一组参数的问题。我们可以控制随机网格搜索的迭代次数，来控制整体被抽出的参数子空间的大小，这种做法往往被称为“赋予随机网格搜索固定的计算量，当全部计算量被消耗完毕之后，随机网格搜索就停止”。
在这里插入图片描述

随机网格搜索的实现

class sklearn.model_selection.RandomizedSearchCV(estimator, param_distributions, *, n_iter=10, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, random_state=None, error_score=nan, return_train_score=False)

全部参数解读如下，其中加粗的是随机网格搜索独有的参数：

Name	Description
estimator	调参对象，某评估器
param_distributions	全域参数空间，可以是字典或者字典构成的列表
n_iter	迭代次数，迭代次数越多，抽取的子参数空间越大
scoring	评估指标，支持同时输出多个参数
n_jobs	设置工作时参与计算的线程数
refit	挑选评估指标和最佳参数，在完整数据集上进行训练
cv	交叉验证的折数
verbose	输出工作日志形式
pre_dispatch	多任务并行时任务划分数量
random_state	随机数种子
error_score	当网格搜索报错时返回结果，选择’raise’时将直接报错并中断训练过程，其他情况会显示警告信息后继续完成训练
return_train_score	在交叉验证中是否显示训练集中参数得分

我们仍使用房价数据集进行调参

import numpy as np
import pandas as pd
import sklearn
import matplotlib as mlp
import matplotlib.pyplot as plt
import seaborn as sns
import time
import re, pip, conda
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import cross_validate, KFold, GridSearchCV, RandomizedSearchCV

# 定义RMSE函数
def RMSE(cvresult,key):
    return (abs(cvresult[key])**0.5).mean()

#导入波士顿房价数据
data = pd.read_csv(r"D:\Pythonwork\datasets\House Price\train_encode.csv",index_col=0)
#查看数据
data.head()
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

在这里插入图片描述
构造相同的参数空间

#创造参数空间 - 使用与网格搜索时完全一致的空间，以便于对比
param_grid_simple = {"criterion": ["squared_error","poisson"]
                     , 'n_estimators': [*range(20,100,5)]
                     , 'max_depth': [*range(10,25,2)]
                     , "max_features": ["log2","sqrt",16,32,64,"auto"]
                     , "min_impurity_decrease": [*np.arange(0,5,10)]
                    }

#建立回归器、交叉验证
reg = RFR(random_state=1412,verbose=True,n_jobs=-1)
cv = KFold(n_splits=5,shuffle=True,random_state=83)

#定义随机搜索
search = RandomizedSearchCV(estimator=reg
                            ,param_distributions=param_grid_simple
                            ,n_iter = 800 #子空间的大小是全域空间的一半左右
                            ,scoring = "neg_mean_squared_error"
                            ,verbose = True
                            ,cv = cv
                            ,random_state=83
                            ,n_jobs=-1
                           )

#训练随机搜索评估器
#=====【TIME WARNING: 5~10min】=====#
start = time.time()
search.fit(X,y)
print(time.time() - start)

与网格搜索进行对比，可见对于时间上已经有了优势

HPO方法	默认参数	网格搜索	随机搜索
搜索空间/全域空间	-	1536/1536	800/1536
运行时间（分钟）	-	6.36	2.83(↓)
搜索最优（RMSE）	30571.266	29179.698	29251.284
重建最优（RMSE）	-	28572.070	28639.969(↑)

普通网格搜索见下链接

随机森林超参数的网格优化（机器学习的精华–调参）

恒c

关注

17
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
随机网格搜索RandomizedSearchCV

在sklearn中，随机抽取参数子空间并在子空间中进行搜索的方法叫做随机网格搜索RandomizedSearchCV。由于搜索空间的缩小，需要枚举和对比的参数组的数量也对应减少，整体搜索耗时也将随之减少，因此：当设置相同的全域空间时，随机搜索的比枚举网格搜索很多。当设置相同的训练次数时，随机搜索可以比枚举网格搜索很多。同时，绝妙的是，随机网格搜索得出的与枚举网格搜索得出的最小损失。可以说，是提升了运算速度，又没有过多地伤害搜索的精度。不过，需要注意的是，
复制链接

扫一扫