算法笔记(23)网格搜索及Python代码实现

67 篇文章 0 订阅
49 篇文章 3 订阅

网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程。本节介绍三种网格搜索方法:简单网格搜索、与交叉验证结合的网格搜索、使用GridSearchCV的网格搜索。

网格搜索方法 

简单网格搜索

for循环遍历全部的参数设置,并找出最高分和对应的参数。

X_train, X_test, y_train, y_test=train_test_split(wine.data, 
                                                 wine.target,
                                                 random_state=38)
best_score = 0
for alpha in [0.01,0.1,1.0,10.0]:
    for max_iter in [100,1000,5000,10000]:
        lasso = Lasso(alpha=alpha,max_iter=max_iter)
        lasso.fit(X_train, y_train)
        score = lasso.score(X_test, y_test)
        if score > best_score:
            best_score = score
            best_parameters={'alpha':alpha,'最大迭代次数':max_iter}
            
print("模型最高分为:{:.3f}".format(best_score))
print('最佳参数设置:{}'.format(best_parameters))

模型最高分为:0.889
最佳参数设置:{'alpha': 0.01, '最大迭代次数': 100}

与交叉验证结合的网格搜索

交叉验证法和网格搜索法结合起来找到模型的最优参数。只用先前拆分好的X_train来进行交叉验证,以便我们找到最佳参数之后,再用来拟合X_test来看一下模型的得分。

for alpha in [0.01,0.1,1.0,10.0]:
    for max_iter in [100,1000,5000,10000]:
        lasso = Lasso(alpha=alpha,max_iter=max_iter)
        scores = cross_val_score(lasso, X_train, y_train, cv=6)
        score = np.mean(scores)
        if score > best_score:
            best_score = score
            best_parameters={'alpha':alpha, '最大迭代数':max_iter}
            
print("模型最高分为:{:.3f}".format(best_score))
print('最佳参数设置:{}'.format(best_parameters))

模型最高分为:0.865
最佳参数设置:{'alpha': 0.01, '最大迭代数': 100}

lasso = Lasso(alpha=0.01, max_iter=100).fit(X_train, y_train)
print('测试数据集得分:{:.3f}'.format(lasso.score(X_test,y_test)))

测试数据集得分:0.819

使用GridSearchCV的网格搜索

GridSearchCV本身就是将交叉验证和网格搜索封装在一起。GridSearchCV需要反复建模,所需要的计算时间往往更长。

from sklearn.model_selection import GridSearchCV
params = {'alpha':[0.01,0.1,1.0,10.0],
         'max_iter':[100,1000,5000,10000]}
grid_search = GridSearchCV(lasso,params,cv=6)
grid_search.fit(X_train, y_train)
print('模型最高分:{:.3f}'.format(grid_search.score(X_test, y_test)))
print('最优参数:{}'.format(grid_search.best_params_))

模型最高分:0.819
最优参数:{'alpha': 0.01, 'max_iter': 100}

print('交叉验证最高得分:{:.3f}'.format(grid_search.best_score_))

交叉验证最高得分:0.865
分析:GridSearchCV有一个属性best_score_,这个属性会存储模型在交叉验证中所得的最高分,而不是在测试数据集上的得分。

想要完整代码的朋友,可toutiao搜索“编程研究坊”关注后s信我,回复“算法笔记23“获取

  • 3
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程研究坊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值