用 Pipeline 将训练集参数重复应用到测试集

最新推荐文章于 2022-12-21 12:41:08 发布

VIP文章 Alice熹爱学习

最新推荐文章于 2022-12-21 12:41:08 发布

阅读量3.4k

点赞数

分类专栏： MachineLearning 文章标签： sklearn 机器学习

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/73825718

版权

更新了最后部分两个完整的代码

当我们对训练集应用各种预处理操作时（特征标准化、主成分分析等等），
我们都需要对测试集重复利用这些参数。

pipeline 实现了对全部步骤的流式化封装和管理，可以很方便地使参数集在新数据集上被重复使用。

pipeline 可以用于下面几处：

模块化 Feature Transform，只需写很少的代码就能将新的 Feature 更新到训练集中。
自动化 Grid Search，只要预先设定好使用的 Model 和参数的候选，就能自动搜索并记录最佳的 Model。
自动化 Ensemble Generation，每隔一段时间将现有最好的 K 个 Model 拿来做 Ensemble。

栗子：

问题是要对数据集 Breast Cancer Wisconsin 进行分类，
它包含 569 个样本，第一列 ID，第二列类别(M=恶性肿瘤，B=良性肿瘤)，
第 3-32 列是实数值的特征。

from pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'breast-cancer-wisconsin/wdbc.data', header=None)
                                 # Breast Cancer Wisconsin dataset

X, y = df.values[:, 2:], df.values[:, 1]

encoder = LabelEncoder()
y = encoder.fit_transform(y)
                    >>> encoder.transform(['M', 'B'])
                    array([1, 0])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2</

最低0.47元/天解锁文章

Alice熹爱学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
用 Pipeline 将训练集参数重复应用到测试集

当我们对训练集应用各种预处理操作时（特征标准化、主成分分析等等），我们都需要对测试集重复利用这些参数。pipeline 实现了对全部步骤的流式化封装和管理，可以很方便地使参数集在新数据集上被重复使用。pipeline 可以用于下面几处：模块化 Feature Transform，只需写很少的代码就能将新的 Feature 更新到训练集中。自动化 Grid Search，只要预先设定好使用的
复制链接

扫一扫