之前阐述了 逻辑回归 、 孤立森林 等建模方法,本文介绍如何把建好的模型保存为标准格式(PMML文件)。 那么,什么情况下需要把模型保存为
PMML 文件? 当模型需要
跨平台部署 或
反复调用 时,可以把模型保存为PMML文件。 比如最近要上线一个反欺诈模型(用的GBDT)。 训练模型用的Python(里面有很多现成的库,构建机器学习模型较方便),生产调用用的Java(写机器学习模型非常麻烦)。
这时需要在Python中把训练好的模型保存为PMML文件,到Java中直接调用预测。
本文目录一、什么是PMML
什么是PMML?
Python中把模型保存为PMML的标准格式
实例一:把GBDT模型保存为PMML文件
3.1 导入数据
3.2 取出建模所需的变量
3.3 训练模型并保存为PMML文件
实例二:把随机森林模型保存为PMML文件
4.1 导入包
4.2 按标准流程建模并导出PMML文件
PMML的优缺点
5.1 优点
5.2 缺点

PMML(Predictive Model Markup Language):预测模型标记语言,它用XML格式来描述生成的机器学习模型,是目前表示机器学习模型的实际标准。
若要将在Python中训练好的模型部署到生产上时,可以使用目标环境解析PMML文件的库来加载模型,并做预测。
二、Python中模型保存为PMML的标准格式
Python中把模型导出为PMML文件的一般流程如下:
step1:特征处理(DataFrameMapper函数)。
step2:训练模型(pipeline函数)。
step3:导出模型(sklearn2pmml函数)。
其中step1不是必须步骤。
接下来看两个具体实例。
三、实例一:把GBDT模型保存为PMML文件