Python机器学习从零开始(七)结果部署

目录

1.通过pickle序列化和反序列化

2.通过joblib序列化和反序列化

3.生成模型的技巧

总结 


结果部署是机器学习项目中最后一步,也是最重要的步骤之一。选定算法后,对算法训练生成模型,并部署到生产环境上,以便利用机器学习解决实际问题。

找到一个能够生成高精确度模型的算法不是机器学习最后的步骤,在实际的项目中,需要将生成的模型序列化,并将其发布到生产环境。当有新数据出现时,需要反序列化已保存的模型,然后用其预测新的数据。

1.通过pickle序列化和反序列化

pickle是标准的Python序列化方法,可以通过它来序列化机器学习算法生成的模型,并将其保存到文件中。

下面给出一个根据Pima Indians数据集训练逻辑回归算法生成的一个模型,并将其序列化到文件,然后反序列化这个模型的例子。在机器学习项目中,当模型训练需要花费大量的时间时,模型序列化是尤其重要的。

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from pickle import dump
from pickle import load

#导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
#将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
test_size = 0.33
seed = 4
X_train,X_test,Y_traing,Y_test = train_test_split(X,Y,test_size=test_size,random_state=seed)
#训练模型
model = LogisticRegression(max_iter=3000)
model.fit(X_train,Y_traing)

#保存模型
model_file = 'finalized_model.sav'
with open(model_file,'wb') as model_f:
    #模型序列化
    dump(model,model_f)

#加载模型
with open(model_file, 'rb') as model_f:
    #模型反序列化
    load_model = load(model_f)
    result = load_model.score(X_test, Y_test)
    print("算法评估结果: %.3f%%" % (result * 100))

运行结果:

算法评估结果: 80.315%

 

 

2.通过joblib序列化和反序列化

joblib是SciPy生态环境的一部分,提供了通用的工具来序列化和反序列化Python的对象。通过joblib序列化对象时会采用NumPy的格式保存数据,这对某些保存数据到模型中的算法非常有效,入K近邻算法。

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import joblib
#导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
#将数据分为输入数据和输出结果
array = data.values
X = array[:,0:8]
Y = array[:,8]
test_size = 0.33
seed = 4
X_train,X_test,Y_traing,Y_test = train_test_split(X,Y,test_size=test_size,random_state=seed)
#训练模型
model = LogisticRegression(max_iter=3000)
model.fit(X_train,Y_traing)

#保存模型
model_file = 'finalized_model_jpblib.sav'
with open(model_file, 'wb') as model_f:
    joblib.dump(model,model_f)

with open(model_file, 'rb') as model_f:
    loaded_model = joblib.load(model_f)
    result = loaded_model.score(X_test, Y_test)
    print("算法评估结果: %.3f%%" % (result * 100))
算法评估结果: 80.315%

3.生成模型的技巧

在生成机器学习模型时,需要考虑一下问题:

  • Python版本:要记录下Python的版本,大部分情况下,在序列化模型和反序列化模型时,需要使用相同的Python版本。
  • 类库版本:同样需要记录所有的主要类库版本,因为在序列化模型和反向序列化模型时需要使用相同版本的类库,不仅需要SciPy和scikit-learn版本一致,其他的类库版本也需要一致。

总结 

至此,整个机器学习的流程就介绍结束了。接下来将会完成几个机器学习的工程项目。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【为什么要学习这门课?】 本课程重点介绍了如何在 Python 和 Jupyter 笔记本中执行EDA。除此之外,也会将软件工程基础知识与课程内容做关联教学,并提供关于linting、测试、命令行工具、数据工程API等方面的关键性说明。【本门课程亮点】 超过8小时的视频课程展示了如何使用AWS和谷歌云平台来解决机器学习人工智能中的本质问题。本课程涵盖了如何通过Jupyter笔记本开始使用Python,然后继续深入到Python数据科学库中的各种具体细节,包括Pandas, Seaborn, scikit-learn和TensorFlow。【讲师介绍】  Noah Gift(诺亚·吉夫特)—— 亚马逊AWS机器学习专家、Google云架构专家Noah Gift拥有大约20年的Python编程经验,是Python Software Foundation的成员。亚马逊云服务AWS机器学习认证专家、AWS认证大数据专家、Google认证云架构专家,曾供职于ABC、索尼、迪士尼、AT&T等多家知名企业,担任CTO、总经理、首席数据科学家、首席云架构师等职位。同时,Noah Gift作为导师兼具丰富的教学、研究与行业经验。他在加州大学伯克利分校(UCB)信息学院数据科学硕士项目、加州大学戴维斯分校(UCD)管理研究生院商业分析硕士项目、以及西北大学数据科学硕士项目担任讲师,教授和设计机器学习、AI和数据科学等课程。【面向人群】 1、具有一定SQL经验的数据科学从业者2、希望在AWS和GCP上扩展基于云机器学习的数据科学从业者3、希望了解如何更深入实践数据科学原理的软件开发人员4、希望理解Python中的机器学习人工智能,以有效管理技术团队的技术管理者。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

靖墨c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值