pyspark调用java生成的jar
准备java工程
创建java工程,代码结构如下:
FeatureCalculateDemo.java代码如下:
package demo;
public class FeatureCalculateDemo {
public int sqAdd(int x){
return x * x + 1;
}
public int sqSub(int x, int y){
return x - y;
}
public String sqStr(String x){
return x.toUpperCase();
}
public static void main(String[] args){
FeatureCalculateDemo fc = new FeatureCalculateDemo();
int res = fc.sqAdd(11);
System.out.println("res:" + res);
}
}
编辑java工程为jar包
使用idea打包:
build之后,在前面选择的jar保存路径中就能找到对应的jar包。
spark加载jar包
from pyspark import SparkContext
from pyspark import SparkConf
jar_path = "./tools/sparkJarDemo.jar" # 我的jar路径,使用时替换即可
app_name = "demo"
conf = SparkConf().setAppName(app_name).set("spark.jars", jar_path)
sc = SparkContext(conf=conf)
spark使用
from py4j.java_gateway import java_import
java_import(sc._gateway.jvm, "demo.*")
print(type(sc._gateway.jvm.demo.FeatureCalculateDemo))
inst = sc._gateway.jvm.demo.FeatureCalculateDemo()
# 用法1
print(inst.sqAdd(5)) # 26
print(inst.sqSub(50, 2)) # 48
print(inst.sqStr("abc")) # ABC
至此,就把pyspark调用jar的过程介绍完了。
踩过的坑
- 网上很多的介绍中,没有提到要先通过SparkConf().setAppName(app_name).set(“spark.jars”, jar_path),加载jar,所以很多时候会忘记,本人在过程中就忘记了,调试了很久。
- sc._gateway.jvm.demo.FeatureCalculateDemo 加载class时,需要从package开始(本文的package为demo)
- jar只能在driver节点中加载使用,无法在worker中使用,如下用法不行, 因为map函数在worker中运行,无法找到sqAdd函数:
rdd = sc.parallelize([1, 2, 3])
result = rdd.map(inst.sqAdd).collect()
print("result:", result)
参考文献:
制作jar:https://blog.csdn.net/jzy1990/article/details/105001468/
调用jar:https://www.cnblogs.com/errdev/p/4511303.html
jar问题讨论:https://stackoverflow.com/questions/33544105/running-custom-java-class-in-pyspark