背景
在写spark程序时,也可以调用别的语言写成的外部程序来进行一些运算
方法
主要方法就是在spark里调用pipe()函数,来指定要执行的文件以及传入的参数。代码如下
// pipe()函数调用外部程序
val cFile = "C:/Users/songzeceng/test.exe"
val pipeOut = testRDD.pipe(Seq(cFile, "command", "cmd"))
// Seq()函数负责调用程序,以及传参。外部程序通过向标准输出来写结果,此结果就是pipe()函数的返回RDD
pipeOut.foreach(println)
testRDD是任意RDD,后面的command和cmd是给exe文件传的参数
对应C源文件如下
#include<stdio.h>
int main(int argc, char** argv) {
for (int i = 0; i < argc; i++) {
printf("第%d个参数是%s\n", (i + 1), argv[i]);
}
printf("end of C\n");
return 0;
}
编译命令
gcc test.c -o test.exe
运行Spark程序,得到的结果如下图所示
遇到的问题
可能会遇到编码不一致问题,报错如下
java.nio.charset.MalformedInputException: Input length = 1
由于spark程序文件用utf-8编码,c文件用了ANSI编码,所以把两者统一就行了