sparkpython多线程_如何在PySpark（Spark流）中组合多个rdd？

最新推荐文章于 2022-08-18 00:05:58 发布

weixin_39525243

最新推荐文章于 2022-08-18 00:05:58 发布

阅读量351

点赞数

文章标签： sparkpython多线程

例如-在Spark Streaming中，我有以下形式的传入数据-{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "",

"score3" : ""

}

处理它的管道如下-

^{pr2}$

因为我所有的RDD都是串行创建的，所以我理解通过将process函数修改为-def process(rdd):

rdd1 = rdd.map(func1)

rdd2 = rdd.map(func2)

rdd3 = rdd.map(func3)

rdd4 = #combine rdd1, rdd2 rdd3

rdd3.foreachPartition(publish)

我有两个问题-这个新订单创建的地图的DAG允许MIMD吗

(多指令多数据集)无显式

多线程？在

在这种情况下，如何组合多个RDD？我熟悉zip和map来组合具有相同行数的两个数据帧，但是

如何组合嵌套json的RDD？在

示例-组合这类值的3个RDD。-在{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "3",

"score2" : "",

"score3" : ""

}

{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "5",

"score3" : ""

}

{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "",

"score3" : "7"

}

在这样一排排的rdd中-{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "2",

"score2" : "5",

"score3" : "7"

}

谢谢！在

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39525243

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkpython多线程_如何在PySpark（Spark流）中组合多个rdd？

例如-在Spark Streaming中，我有以下形式的传入数据-{"id": xx,"a" : 1,"b" : 2,"c" : 3,"d" : 4,"scores"{"score1" : "","score2" : "","score3" : ""}}处理它的管道如下-^{pr2}$因为我所有的RDD都是串行创建的，所以我理解通过将process函数修改为-def process(rdd):rd...
复制链接

扫一扫