pyspark调用java生成的jar

准备java工程

创建java工程,代码结构如下:
在这里插入图片描述

FeatureCalculateDemo.java代码如下:

package demo;

public class FeatureCalculateDemo {
    public int sqAdd(int x){
        return x * x + 1;
    }

    public int sqSub(int x, int y){
        return x - y;
    }

    public String sqStr(String x){
        return x.toUpperCase();
    }

    public static void main(String[] args){
        FeatureCalculateDemo fc = new FeatureCalculateDemo();
        int res = fc.sqAdd(11);
        System.out.println("res:" + res);
    }

}

编辑java工程为jar包

使用idea打包:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

build之后,在前面选择的jar保存路径中就能找到对应的jar包。

spark加载jar包

from pyspark import SparkContext
from pyspark import SparkConf

jar_path = "./tools/sparkJarDemo.jar" # 我的jar路径,使用时替换即可 
app_name = "demo"
conf = SparkConf().setAppName(app_name).set("spark.jars", jar_path)
sc = SparkContext(conf=conf)

spark使用


from py4j.java_gateway import java_import
java_import(sc._gateway.jvm, "demo.*")
print(type(sc._gateway.jvm.demo.FeatureCalculateDemo))
inst = sc._gateway.jvm.demo.FeatureCalculateDemo()

# 用法1
print(inst.sqAdd(5)) # 26
print(inst.sqSub(50, 2)) # 48
print(inst.sqStr("abc")) # ABC

至此,就把pyspark调用jar的过程介绍完了。

踩过的坑

  • 网上很多的介绍中,没有提到要先通过SparkConf().setAppName(app_name).set(“spark.jars”, jar_path),加载jar,所以很多时候会忘记,本人在过程中就忘记了,调试了很久。
  • sc._gateway.jvm.demo.FeatureCalculateDemo 加载class时,需要从package开始(本文的package为demo)
  • jar只能在driver节点中加载使用,无法在worker中使用,如下用法不行, 因为map函数在worker中运行,无法找到sqAdd函数:
rdd = sc.parallelize([1, 2, 3])
result = rdd.map(inst.sqAdd).collect()
print("result:", result)
参考文献:

制作jar:https://blog.csdn.net/jzy1990/article/details/105001468/
调用jar:https://www.cnblogs.com/errdev/p/4511303.html
jar问题讨论:https://stackoverflow.com/questions/33544105/running-custom-java-class-in-pyspark

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值