文章目录
1 Pipeline概述
Pipeline可用于将多个估计器连接为一个估计器。
在处理数据和训练估计器时通常有固定的步骤,例如特征选择、规范化、参数搜索和分类,而Pipeline就可以避免重复计算,同时对Pipeline里的所有估计器做相同的操作。
Pipeline中除最后一个估计器外的所有估计器都必须是转换器(即必须有转换方法)。最后一个估计器可以是任何类型(转换器、分类器等)。
还可以对多个学习器进行整合,合并特征空间并ensemble模型。
2 使用
from sklearn.pipeline import make_pipeline
make_pipeline(*steps, **kwargs)
例如:
>>> from sklearn.naive_bayes import GaussianNB
>>> from sklearn.preprocessing import StandardScaler
>>> make_pipeline(StandardScaler(), GaussianNB(priors=None))
Pipeline(steps=[('standardscaler', StandardScaler()),
('gaussiannb', GaussianNB())])