Pipeline, ColumnTransformer和FeatureUnion

最新推荐文章于 2024-05-02 15:54:57 发布

磐创 AI

最新推荐文章于 2024-05-02 15:54:57 发布

阅读量1.5k

点赞数 5

本文链接：https://blog.csdn.net/fendouaini/article/details/109211421

版权

本文介绍了在机器学习中如何利用sklearn的Pipeline, ColumnTransformer和FeatureUnion工具进行数据预处理。文章通过实例展示了如何处理缺失值、编码分类变量，并讨论了这些工具在不同情况下的适用性和优势。Pipeline简化了代码并便于模型部署，ColumnTransformer适用于不同列组的特定转换，而FeatureUnion则允许在同一个输入数据上并行应用多个转换。" 127058104,8250505,OpenYurt与EdgeX：云边端协同的实践与探索,"['云原生', '边缘计算', '物联网框架', 'OpenYurt', '设备孪生']

摘要由CSDN通过智能技术生成

作者|Zolzaya Luvsandorj 编译|VK 来源|Towards Datas Science

掌握sklearn必须知道这三个强大的工具。因此，在建立机器学习模型时，学习如何有效地使用这些方法是至关重要的。

在深入讨论之前，我们先从两个方面着手：

Transformer：Transformer是指具有fit()和transform()方法的对象，用于清理、减少、扩展或生成特征。简单地说，transformers帮助你将数据转换为机器学习模型所需的格式。OneHotEncoder和MinMaxScaler就是Transformer的例子。
Estimator：Estimator是指机器学习模型。它是一个具有fit()和predict()方法的对象。我们将交替使用模型和Estimator这2个术语。该链接是一些Estimator的例子：https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html。

安装

如果你想在你电脑上运行代码，确保你已经安装了pandas，seaborn和sklearn。我在Jupyter notebook中在python3.7.1中编写脚本。

让我们导入所需的库和数据集。关于这个数据集(包括数据字典)的详细信息可以在这里找到(这个源实际上是针对R的，但是它似乎引用了相同的底层数据集)：https://vincentarelbundock.github.io/Rdatasets/doc/reshape2/tips.html。

# 设置种子
seed = 123

# 为数据导入包/模块
import pandas as pd
from seaborn import load_dataset

# 为特征工程和建模导入模块
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression

# 加载数据集
df = load_dataset('tips').drop(columns=['tip', 'sex']).sample(n=5, random_state=seed)

# 添加缺失的值
df.iloc[[1, 2, 4], [2, 4]] = np.nan
df

使用少量的记录可以很容易地监控每个步骤的输入和输出。因此，我们将只使用数据集中5条记录的样本。

管道

假设我们想用smoker、day和time列来预测总的账单。我们将先删除size列并对数据进行划分：

# 划分数据
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['total_bill', 'size']), 
                                                    df['total_bill'], 
                                                    test_size=.2, 
                                                    random_state=seed)

通常情况下，原始数据不是我们可以直接将其输入机器学习模型的状态。因此，将数据转换为可接受且对模型有用的状态成为建模的必要先决条件。让我们做以下转换作为准备：

用“missing”填充缺失值
one-hot编码

以下完成这两个步骤：

# 输入训练数据
imputer = SimpleImputer(strategy='constant', fill_value='missing')
X_train_imputed = imputer.fit_transform(X_train)

# 编码训练数据
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
X_train_encoded = encoder.fit_transform(X_train_imputed)

# 检查训练前后的数据
print("******************** Training data ********************")
display(X_train)
display(pd.DataFrame(X_train_imputed, columns=X_train.columns))
display(pd.DataFrame(X_train_encoded, columns=encoder.get_feature_names(X_train.columns)))

# 转换测试数据
X_test_imputed = imputer.transform(X_test)
X_test_encoded = encoder.transform(X_test_imputed)

# 检查测试前后的数据
print("******************** Test data ********************")
display(X_test)
display(pd.DataFrame(X_test_imputed, columns=X_train.columns))
display(pd.DataFrame(X_test_encoded, columns=encoder.get_feature_names(X_train.columns)))

你可能已经注意到，当映射回测试数据集的列名时，我们使用了来自训练数据集的列名。这是因为我更喜欢使用来自于训练Transformer的数据的列名。但是，如果我们使用测试数据集，它将给出相同的结果。