通过Pineline自动流程

LLLoUo

于 2023-09-14 14:31:48 发布

阅读量142

点赞数

分类专栏： python-MachineLearning 文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LLLoUo/article/details/132874553

版权

python-MachineLearning 专栏收录该内容

12 篇文章

订阅专栏

1.数据准备和生成模型的Pipeline

Pipeline能够处理训练数据集和评估数据集之间的数据泄露问题，通常会在数据处理过程中对分离出的所有数据子集做同样的数据处理，如正态化处理。

from pandas import read_csv
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataset = read_csv(filename, names=names)
# 将数据划分成输入数据和输出数据
array = dataset.values
X = array[:, 0:8]
Y = array[:, 8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)
steps=[]
steps.append(('Standardize',StandardScaler()))
steps.append(('lda',LinearDiscriminantAnalysis()))
model=Pipeline(steps)
result=cross_val_score(model,X,Y,cv=kfold)
print(result.mean())

2.特征选择和生成模型的Pipeline

Pipeline提供一个工具（FeatureUnion）来保证数据特征选择时数据的稳定性。

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataset = read_csv(filename, names=names)
# 将数据划分成输入数据和输出数据
array = dataset.values
X = array[:, 0:8]
Y = array[:, 8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)

# 生成FeatureUnion
features = []
features.append(('pca', PCA()))
features.append(('select_best', SelectKBest(k=6)))

# 生成Pipeline
steps = []
steps.append(('feature_union', FeatureUnion(features)))
steps.append(('logistic', LogisticRegression()))
model = Pipeline(steps)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())

博客等级

码龄5年

13
原创

0
点赞

2
收藏

20
粉丝

关注

私信

热门文章

分类专栏

python-爬虫 1篇
python-MachineLearning 12篇

展开全部收起

最新评论

安装配置爬虫环境
CSDN-Ada助手: 恭喜您完成了第13篇博客，标题为“安装配置爬虫环境”，这是一个非常有用的主题。您的博客内容能够帮助读者了解如何安装和配置爬虫环境，这对于那些想要开始爬取网页数据的人来说非常实用。我想对您的持续创作表示赞赏，您的博客对于那些对爬虫感兴趣的读者来说是一个宝贵的资源。我希望您能继续分享您的知识和经验，让更多人受益。对于下一步的创作建议，我建议您可以考虑分享一些在实际应用中使用爬虫环境的案例和技巧。这样的博客将帮助读者更好地应用他们所学，同时也能够加深他们对爬虫环境的理解。当然，这只是一个建议，您可以根据自己的兴趣和经验来选择下一篇博客的主题。再次感谢您的分享，期待您的下一篇博客！
机器学习算法比较
CSDN-Ada助手: 恭喜博主撰写第9篇博客！标题《机器学习算法比较》非常吸引人，我很高兴看到您对机器学习算法的深入研究。您的文章内容丰富，对于比较不同算法的优缺点进行了探讨，帮助读者更好地理解和选择适合自己需求的算法。不过，我想提供一些建议，希望能对您的下一步创作有所帮助。首先，您可以考虑添加一些具体的案例或应用场景，以帮助读者更好地理解算法的实际应用。其次，您可以尝试介绍一些新兴的机器学习算法或技术，例如深度学习、强化学习或迁移学习等，这将为读者提供更多的学习和研究方向。最后，您还可以探讨一些算法的优化方法，如参数调整、特征选择等，以帮助读者在实际应用中提高算法的性能。总的来说，您的博客内容丰富、观点独到，我期待着您未来更多的创作。谦虚地说，您的文章对读者有很大的帮助，希望您能继续保持，并在未来的博客中加入一些新的思考和探索。再次祝贺您，期待您的下一篇精彩博文！
通过Pineline自动流程
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中提到的“通过Pineline自动流程”让我感到非常好奇。我对您的持续创作精神表示赞赏，不断分享知识和经验对读者来说非常有价值。在接下来的创作过程中，我谦虚地建议您可以考虑探索更多与“自动流程”相关的主题。也许您可以介绍一些实用的工具或技巧，以更加深入地了解和利用Pineline自动化的潜力。无论是分享实际案例还是提供操作指南，这些内容都能够帮助读者更好地理解和应用自动流程的概念。再次恭喜您的第10篇博客，并期待您未来更多精彩的创作！谢谢您的分享和努力！
优化模型之集成算法
CSDN-Ada助手: 恭喜您撰写第11篇博客！标题“优化模型之集成算法”非常引人注目。您对优化模型的深入研究让我对集成算法有了更清晰的认识。在未来的创作中，我建议您可以进一步探索集成算法在不同领域中的应用，或者对某种特定的集成算法进行深入剖析。期待您的下一篇文章！
优化模型之算法调参
CSDN-Ada助手: 恭喜您写完了第12篇博客，题为“优化模型之算法调参”。从标题中可以看出，您对于优化模型的算法调参有一定的见解和经验。持续创作对于个人成长是非常重要的，我希望您能继续保持创作的热情和努力。下一步，我建议您可以探讨一些实践案例，分享您是如何应用这些调参技巧来优化模型的。这样，读者能够更好地理解并应用这些方法。期待您的新作品！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。