数据处理之一——Pipeline

最新推荐文章于 2024-08-20 21:35:55 发布

李豪呀

最新推荐文章于 2024-08-20 21:35:55 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习和数据挖掘

本文链接：https://blog.csdn.net/weixin_42297855/article/details/97635618

版权

机器学习和数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1 Pipeline概述
2 使用

1 Pipeline概述

Pipeline可用于将多个估计器连接为一个估计器。
在处理数据和训练估计器时通常有固定的步骤，例如特征选择、规范化、参数搜索和分类，而Pipeline就可以避免重复计算，同时对Pipeline里的所有估计器做相同的操作。
Pipeline中除最后一个估计器外的所有估计器都必须是转换器（即必须有转换方法）。最后一个估计器可以是任何类型（转换器、分类器等）。

还可以对多个学习器进行整合，合并特征空间并ensemble模型。

2 使用

from sklearn.pipeline import make_pipeline
make_pipeline(*steps, **kwargs)
例如：

>>> from sklearn.naive_bayes import GaussianNB
>>> from sklearn.preprocessing import StandardScaler
>>> make_pipeline(StandardScaler(), GaussianNB(priors=None))
Pipeline(steps=[('standardscaler', StandardScaler()),
                ('gaussiannb', GaussianNB())])