PySpark外部包lightgbm的jar依赖文件

之前在纯python环境中捣鼓spark,在网上能够找到xgboost的jar包,但是lightgbm在微软官网的方式安装.如下

import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
            .config("spark.jars.packages", "com.microsoft.ml.spark:mmlspark_2.11:1.0.0-rc3") \
            .config("spark.jars.repositories", "https://mmlspark.azureedge.net/maven") \
            .getOrCreate()
import mmlspark

这种方式比较慢,或者你只想在离线环境下试试,在不便通过以上这种途径得到jar依赖包的情况下,就需要找到匹配的离线jar文件。

现把相关文件分享出来:

版本为:

spark:2.3
mmlspark_2.11-0.18.1
lightgbmlib-2.2.350

提交方式:

spark2-submit --master yarn --num-executors 60  --executor-memory 16g --executor-cores 4 --driver-memory 4g --jars lightgbmlib-2.2.350.jar,mmlspark_2.11-0.18.1.jar --py-files mmlspark.zip lgb_model.py

在放置该jar依赖的路径下,提交以上代码,其中lgb_model.py为个人所要执行的spark lightgbm代码。

导入的代码片段为

from pyspark.sql import SparkSession

spark = SparkSession. \
    Builder(). \
    config("spark.sql.crossJoin.enabled", "true"). \
    config("spark.sql.execution.arrow.enabled", "false"). \
    enableHiveSupport(). \
    getOrCreate()


from mmlspark.lightgbm import LightGBMRegressor

lgb = LightGBMRegressor(
    alpha=0.1,
    learningRate=0.1,
    numLeaves=100,
    numIterations=128,
    maxDepth=16,
    maxBin=32)
    
#train_mod02为spark.dataframe格式
model = lgb.fit(train_mod02)

附下载离线jar包如下,如需请自取。
pyspark-lightgbm-jar链接

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值