python pipline_python_pipeline

pipeline管道机制使用方法:

流水线的输入为一连串的数据挖掘步骤,其中最后一步必须是估计器(Estimator),可理解成分类器

前几步是转换器(Transformer)。输入的数据集经过转换器的处理后,输出的结果作为下一步的输入。

最后,用位于流水线最后一步的估计器对数据进行分类。

#coding=gbk

#sklearn 中pipeline管道机制的使用

'''

流水线的功能:

跟踪记录各步骤的操作(以方便地重现实验结果)

对各步骤进行一个封装

确保代码的复杂程度不至于超出掌控范围

'''

import pandas as pd

from sklearn.cross_validation import train_test_split

from sklearn.preprocessing import LabelEncoder

data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'

'breast-cancer-wisconsin/wdbc.data', header=None)

print(data.shape)

x, y = data.values[:,2:],data.values[:,1]

encoder = LabelEncoder()

y= encoder.fit_transform(y) #将 标签 'm', 'b' 转换成1,0

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size= 0.2,random_state= 666)

#使用pipeline管道机制

from sklearn.preprocessing import StandardScaler #规范化,使各特征的均值为1,方差为0

from sklearn.decomposition import PCA

from sklearn.linear_model import LogisticRegression

from sklearn.pipeline import Pipeline

pipe = Pipeline([('sc',StandardScaler()),

('pca',PCA(n_components=2)),

('clf',LogisticRegression(random_state=666)) #设置随机种子,使测试结果复现

])

pipe.fit(x_train, y_train)

print('Test accuracy is %.3f' % pipe.score(x_test, y_test))

# Test accuracy is 0.921

当我们执行 pipe.fit(X_train, y_train)时,首先由StandardScaler在训练集上执行 fit和transform方法,transformed后的数据又被传递给Pipeline对象的下一步,也即PCA()。和StandardScaler一样,PCA也是执行fit和transform方法,最终将转换后的数据传递给 LosigsticRegression

————————————————

版权声明:本文为CSDN博主「蜘蛛侠不会飞」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/qq_40587575/java/article/details/80987742

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值