jpmml-xgboost使用记录

最近在折腾xgboost模型转pmml文件的方法,曾分别尝试在 Python 和 R 的环境下进行操作,试过好几个包,但是有些包不太满足我的需求(比如对sklearn2pmml缺少对空值的处理),有些包缺少维护,不敢使用。最后决定使用 jpmml-xgboost 这个比较常用可靠的包来进行 pmml 文件生成。

jpmml-xgboost 编译打包

如果没有编译条件可以使用我已经打包好的 Jar 包,下载。该包采用JDK8编译,请自行确保安装了Java8

  1. 确保本机已经安装好JDK 8+及Maven
  2. jpmml-xgboost 项目克隆
  3. 根据项目README.md描述,运行 mvn clean install,等待项目编译打包即可

项目打包完成后,会在项目根目录下生成 target/文件夹,其中包含若干jar包文件,接下来需要使用 jpmml-xgboost-executable-VERSION-SNAPSHOT.jar 这个文件(关键字:executable

jpmml-xgboost 使用

常用参数

jpmml-xgboost 使用简单,功能强大,最主要的几个参数为:

  • --fmap-input: (必填)传入模型 fmap 文件
  • --model-input: (必填)xgboost 标准模型文件
  • --pmml-output: (必填)生成的 pmml 文件名
  • --missing-value: 缺失值,可传入(多个)指定的值作为缺失值
  • --X-ntree-limit: 限定使用 xgboost 模型的树的数量,默认使用全部树

fmap 文件

xgboost 标准模型中只保留了入模变量的顺序,但是没有保留变量名,在生成 pmml 时必须指定变量 ID 和变量名之间的映射关系,这就是 fmap 文件的作用。

官方文档中对 feature_map.txt 文件的描述是:

Format of featmap.txt: <featureid> <featurename> <q or i or int>\n :

  • Feature id must be from 0 to number of features, in s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值