之前阐述了逻辑回归、孤立森林等建模方法,本文介绍如何把建好的模型保存为标准格式(PMML文件)。那么,什么情况下需要把模型保存为PMML文件?
当模型需要跨平台部署或反复调用时,可以把模型保存为PMML文件。比如最近要上线一个反欺诈模型(用的GBDT)。训练模型用的Python(里面有很多现成的库,构建机器学习模型较方便),生产调用用的Java(写机器学习模型非常麻烦)。这时需要在Python中把训练好的模型保存为PMML文件,到Java中直接调用预测。
文章目录
一、什么是PMML
PMML(Predictive Model Markup Language):预测模型标记语言,它用XML格式来描述生成的机器学习模型,是目前表示机器学习模型的实际标准。若要将在Python中训练好的模型部署到生产上时,可以使用目标环境解析PMML文件的库来加载模型,并做预测。
二、Python中模型保存为PMML的标准格式
Python中把模型导出为PMML文件的一般流程如下:
- step1:特征处理(DataFrameMapper函数)。
- step2:训练模型(pipeline函数)。
- step3:导出模型(sklearn2pmml函数)。
其中s