sklearn.pipeline的用法介绍

zoujiahui_2018

于 2024-06-04 15:52:30 发布

阅读量281

点赞数 2

分类专栏： python 文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/qq_18055167/article/details/139444797

版权

python 专栏收录该内容

64 篇文章 2 订阅

订阅专栏

sklearn.pipeline可以将多个数据预处理步骤和机器学习模型组合,成一个整体,从而简化了机器学习的流程。 sklearn.pipeline类可以将多个算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流，主要带来两点好处:

1.直接调用 fit 和 predict 方法来对pipeine中的所有算法模型进行训练和预测。
2.可以结合gid search对参数进行选择，具体而言，Pipeline 实现了对全部步骤的流式化封装和管理,可以很方便地使参数集在新数据集(比如测试集)上被重复使用。

下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是transfomer),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是Estimator)。

调用Pipeline时，输入中元组构成的列表，每个元组第一个值为变量名，元组第二个元素是sklearn中的transfomer或Esimator，注意中间每一步是transformer，即它们必须包含fit和transfomr方法,或者ft_tansform，最后一步是个Estimator，即最后一步模型要有fit方法，可以没有transform方法.

from sklearn.preprocessing import Standardscalerfrom sklearn.decomposition import PCA
from sklearn.linear model import LogisticRegression
from sklearn.pipeline import Pipeline

pipe_lr= Pipeline([
	('sc',standardscaler()),
	('pca'，PCA(n_components=2)),
	('clf',LogisticRegression(random state=1))
	])
pipe_lr.fit(x_train, y_train)
print('Test accuracy:%.3f'% pipe_lr.score(x test, y_test))

zoujiahui_2018

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn.pipeline的用法介绍

调用Pipeline时，输入中元组构成的列表，每个元组第一个值为变量名，元组第二个元素是sklearn中的transfomer或Esimator，注意中间每一步是transformer，即它们必须包含。下面是一个简单的例子,展示了如何使用 Pipelne 对训练集和测试集进行如下操作: 先用 Siandardscaler对数据集每一列做标准化处理(是。),再用PCA将原始的30维度特征压缩到2维度, 最后再用模型,LogisticRegression(是。
复制链接

扫一扫

专栏目录