sklearn中的Pipeline类

最新推荐文章于 2024-07-03 18:25:49 发布

修炼之路

最新推荐文章于 2024-07-03 18:25:49 发布

阅读量1.7k

点赞数

分类专栏： scikit-learn修炼之路 python机器学习实战

本文链接：https://blog.csdn.net/sinat_29957455/article/details/79631375

版权

python机器学习实战同时被 2 个专栏收录

43 篇文章 835 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

scikit-learn修炼之路

22 篇文章 3 订阅

订阅专栏

本文介绍了如何使用sklearn的Pipeline类处理威斯康星乳腺癌数据集。首先，将字符类标转换为数值，接着将数据集划分为训练集和测试集。然后，通过Pipeline构建一个流程，包括数据标准化、PCA降维和逻辑回归模型，展示了Pipeline如何方便地串联预处理和模型训练步骤。

摘要由CSDN通过智能技术生成

一、数据集描述

数据集使用的是威斯康星乳腺癌(Breast Cancer Wisconsin)，数据集下载。一共包含569个恶性或者良性肿瘤细胞样本，第一列id是样本的唯一编号，，第二列表示的是样本对应的结果(M代表恶性，B代表良性)。3~32列包含了30个从细胞核照片中提取、用实数值标识的特征，用于构建判定模型，对肿瘤是良性还是恶性做出预测。

二、Pipeline类的使用

1、将字符类标转换为数值

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.linear_model impo

了解本专栏