【数据挖掘】Pipeline & Grid Search

klearn是参加数据科学的比赛,大规模调参,提升效率必备的神器!
这样的思想其实不光光是在python和数据挖掘当中,是一个编程技巧吧,我这个编程功底,实在是有限,学到这个还是挺开心。这里有个链接,原理就讲的就比较清楚。
https://www.cnblogs.com/midhillzhou/p/5588958.html

但是,说到学习编程技巧呢?果不其然,就像是很多前辈所说,官方文档就是最好的学习资料了。这一点,这两天我是深有体会。
不论是pipeline 还是 GridSearch 官方文档将都比较明白了(参数、属性、函数)
GridSearchCV
Pipeline

在我看来,pipeline的优势所在:
1. 把多个步骤放到管道里面,能有效联合多个estimators ,安全,思路清晰。
2. 可以有效地提升程序的运行效率,节省调参时间!它有一个参数的缓存机制,会直接传递模型参数?而且相同的预处理步骤程序在训练数据时候训练好了,之后对测试数据的操作就不会重复训练。      
3. 最重要的,它和GridSearch 搭配,简直是调参利器,它可以将多个步骤的参数集合到一起调整,让我们方便了许多!能轻松达到最佳效果(因为预处理的最优效果,模型并不一定最优)
4. 注意,联合多个estimators 之后联合调参,调参的时候要写“步骤名__参数名”。前面的若干个步骤,一定要有transform方法来转化传送数据。

这里写图片描述

http://blog.sina.com.cn/s/blog_13eaccf160102wxyn.html
看了这篇博客,收获很大。
fit_transform 函数不过是fit 和 transform 函数的一个联合调用。

并行处理,流水线处理,自动化调参,持久化是使用sklearn优雅地进行数据挖掘的核心。并行处理和流水线处理将多个特征处理工作,甚至包括模型训练工作组合成一个工作(从代码的角度来说,即将多个对象组合成了一个对象)。在组合的前提下,自动化调参技术帮我们省去了人工调参的反锁。训练好的模型是贮存在内存中的数据,持久化能够将这些数据保存在文件系统中,之后使用时无需再进行训练,直接从文件系统中加载即可。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值