用 Pipeline 将训练集参数重复应用到测试集

最新推荐文章于 2023-11-17 12:36:46 发布

Alice熹爱学习

最新推荐文章于 2023-11-17 12:36:46 发布

阅读量3.4k

点赞数

分类专栏： MachineLearning 文章标签： sklearn 机器学习

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/73825718

版权

本文介绍了如何使用sklearn的Pipeline组件来确保训练集和测试集的预处理参数一致。通过Pipeline，我们可以方便地进行特征标准化、降维处理，并结合模型进行训练。Pipeline适用于特征选择、Grid Search自动化以及Ensemble Generation。文中以乳腺癌数据集为例，展示了Pipeline在标准缩放、主成分分析和分类任务中的应用，并提及了K折交叉验证的工作流程。

摘要由CSDN通过智能技术生成

更新了最后部分两个完整的代码

当我们对训练集应用各种预处理操作时（特征标准化、主成分分析等等），
我们都需要对测试集重复利用这些参数。

pipeline 实现了对全部步骤的流式化封装和管理，可以很方便地使参数集在新数据集上被重复使用。

pipeline 可以用于下面几处：

模块化 Feature Transform，只需写很少的代码就能将新的 Feature 更新到训练集中。
自动化 Grid Search，只要预先设定好使用的 Model 和参数的候选，就能自动搜索并记录最佳的 Model。
自动化 Ensemble Generation，每隔一段时间将现有最好的 K 个 Model 拿来做 Ensemble。

栗子：

问题是要对数据集 Breast Cancer Wisconsin 进行分类，
它包含 569 个样本，第一列 ID，第二列类别(M=恶性肿瘤，B=良性肿瘤)，
第 3-32 列是实数值的特征。

from pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'breast-cancer-wisconsin/wdbc.data', header=None)
                                 # Breast Cancer Wisconsin dataset

X, y = df.values[:, 2:], df.values[:, 1]

encoder = LabelEncoder()
y = encoder.fit_transform(y)
                    >>> encoder.transform(['M', 'B'])
                    array([1, 0])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2