【数据挖掘】Pipeline & Grid Search

最新推荐文章于 2022-07-10 11:43:52 发布

每一个有风的日子

最新推荐文章于 2022-07-10 11:43:52 发布

阅读量639

点赞数 1

分类专栏： Data_mining Tools

本文链接：https://blog.csdn.net/huhehaotechangsha/article/details/80565950

版权

Tools 同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

Data_mining

2 篇文章 0 订阅

订阅专栏

klearn是参加数据科学的比赛，大规模调参，提升效率必备的神器！
这样的思想其实不光光是在python和数据挖掘当中，是一个编程技巧吧，我这个编程功底，实在是有限，学到这个还是挺开心。这里有个链接，原理就讲的就比较清楚。
https://www.cnblogs.com/midhillzhou/p/5588958.html

但是，说到学习编程技巧呢？果不其然，就像是很多前辈所说，官方文档就是最好的学习资料了。这一点，这两天我是深有体会。
不论是pipeline 还是 GridSearch 官方文档将都比较明白了（参数、属性、函数）
GridSearchCV
Pipeline

在我看来，pipeline的优势所在：
1. 把多个步骤放到管道里面，能有效联合多个estimators ,安全，思路清晰。
2. 可以有效地提升程序的运行效率，节省调参时间！它有一个参数的缓存机制，会直接传递模型参数？而且相同的预处理步骤程序在训练数据时候训练好了，之后对测试数据的操作就不会重复训练。      
3. 最重要的，它和GridSearch 搭配，简直是调参利器，它可以将多个步骤的参数集合到一起调整，让我们方便了许多！能轻松达到最佳效果（因为预处理的最优效果，模型并不一定最优）
4. 注意，联合多个estimators 之后联合调参，调参的时候要写“步骤名__参数名”。前面的若干个步骤，一定要有transform方法来转化传送数据。

这里写图片描述

http://blog.sina.com.cn/s/blog_13eaccf160102wxyn.html
看了这篇博客，收获很大。
fit_transform 函数不过是fit 和 transform 函数的一个联合调用。

并行处理，流水线处理，自动化调参，持久化是使用sklearn优雅地进行数据挖掘的核心。并行处理和流水线处理将多个特征处理工作，甚至包括模型训练工作组合成一个工作（从代码的角度来说，即将多个对象组合成了一个对象）。在组合的前提下，自动化调参技术帮我们省去了人工调参的反锁。训练好的模型是贮存在内存中的数据，持久化能够将这些数据保存在文件系统中，之后使用时无需再进行训练，直接从文件系统中加载即可。

每一个有风的日子

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】Pipeline & Grid Search

klearn是参加数据科学的比赛，大规模调参，提升效率必备的神器！这样的思想其实不光光是在python和数据挖掘当中，是一个编程技巧吧，我这个编程功底，实在是有限，学到这个还是挺开心。这里有个链接，原理就讲的就比较清楚。 https://www.cnblogs.com/midhillzhou/p/5588958.html但是，说到学习编程技巧呢？果不其然，就像是很多...
复制链接

扫一扫