scala python混编_如何在同一个Spark项目中同时使用scala和python？

最新推荐文章于 2022-03-21 11:49:05 发布

weixin_39843847

最新推荐文章于 2022-03-21 11:49:05 发布

阅读量383

点赞数

文章标签： scala python混编

本文链接：https://blog.csdn.net/weixin_39843847/article/details/113539912

版权

可以通过spark中的管道运行python代码。

使用pipe()，可以编写RDD的 transformation，该 transformation将标准输入中的每个RDD元素作为字符串读取， root据脚本指令操作该字符串，然后将结果作为字符串写入标准输出。

添加文件(路径)，我们可以为每个 job节点添加文件列表，以便在启动Spark作业时下载。所有 job节点都将拥有脚本的副本，因此我们将通过管道进行并行操作。我们需要在所有 job节点和执行节点上安装所有的库和依赖项。

例子：

python文件：将输入数据 transformation为大写的代码

#!/usr/bin/python

import sys

for line in sys.stdin:

print line.upper()

spark代码：用于管道数据

val conf = new SparkConf().setAppName("Pipe")

val sc = new SparkContext(conf)

val distScript = "/path/on/driver/PipeScript.py"

val distScriptName = "PipeScript.py"

sc.addFile(distScript)

val ipData = sc.parallelize(List("asd","xyz","zxcz","sdfsfd","Ssdfd","Sdfsf"))

val opData = ipData.pipe(SparkFiles.get(distScriptName))

opData.foreach(println)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39843847

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark-timeSeries.rar_scala 时间序列_spark ARIMA_spark arima_spark 滑

07-15

在Scala中使用Spark，可以通过DataFrame或RDD API处理大量时间序列数据，并利用Spark的并行计算能力加速模型训练和预测过程。四、Spark ARIMA实现在Spark上实现ARIMA模型，通常需要借助专门的库，如`sparkts`库，...

解决scala调用python程序的个别问题

sinat_41373387的博客

11-07

808

最近在做一个spark项目，需要在spark里进行车辆目标识别，而目标识别好多都是python代码，很多函数接口不同，因此想要将python与scala混编。默默探索了一周后，虽然并未完全解决我的问题，但是也有一些心得，想要与大家分享。利用sparkRDD调用python脚本程序 1、首先将python脚本定义一个变量 val scriptPath = "python src/main/pyth...

参与评论您还未登录，请先登录后发表或查看评论

Spark Scala/Java调用Python算法文件