掌握Python 机器学习读书笔记 9 （流水线 && 算法保存）

最新推荐文章于 2024-04-30 19:02:10 发布

伊莱特n165

最新推荐文章于 2024-04-30 19:02:10 发布

阅读量928

点赞数 21

文章标签： python 机器学习算法开发语言人工智能

本文链接：https://blog.csdn.net/weixin_40533706/article/details/136258363

版权

cha14 流水线

在机器学习里可以看到有一些必要的步骤，这些步骤是可以作为workflow 自动化的。而且流水线可以对每个fold来进行处理，这样很大程度避免了数据泄露。这也是为什么使用流水线的原因。

14.1 数据准备和建模的流水线

使用机器学习的时候很容易落入一个陷阱，就是泄露你的训练数据到测试数据。为了不陷入这个陷阱，你需要严格的把训练和测试数据分开。比如一种情况，你在做正则化和标准化给整个数据集的时候，很可能把整个数据集进行了处理。这是不对的，因为包括了训练和测试数据。 Pipeline 流水线会在这个地方帮助到你，就是说在标准化的时候可以严格的作用在每fold上，而不是互相干扰。如下例：

其实从例子你看不到内在的这个处理，这个是具体实现的时候

# Create a pipeline that standardizes the data then creates a model
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# load data
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# create pipeline
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lda', LinearDiscriminantAnalysis()))
model =

最低0.47元/天解锁文章

伊莱特n165

关注

21
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
1
评论
掌握Python 机器学习读书笔记 9 （流水线 && 算法保存）

cha14 流水线在机器学习里可以看到有一些必要的步骤，这些步骤是可以作为workflow 自动化的。而且流水线可以对每个fold来进行处理，这样很大程度避免了数据泄露。这也是为什么使用流水线的原因。14.1 数据准备和建模的流水线使用机器学习的时候很容易落入一个陷阱，就是泄露你的训练数据到测试数据。为了不陷入这个陷阱，你需要严格的把训练和测试数据分开。比如一种情况...
复制链接

扫一扫