sparkpython多线程_如何在PySpark(Spark流)中组合多个rdd?

例如-在Spark Streaming中,我有以下形式的传入数据-{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "",

"score3" : ""

}

}

处理它的管道如下-

^{pr2}$

因为我所有的RDD都是串行创建的,所以我理解通过将process函数修改为-def process(rdd):

rdd1 = rdd.map(func1)

rdd2 = rdd.map(func2)

rdd3 = rdd.map(func3)

rdd4 = #combine rdd1, rdd2 rdd3

rdd3.foreachPartition(publish)

我有两个问题-这个新订单创建的地图的DAG允许MIMD吗

(多指令多数据集)无显式

多线程?在

在这种情况下,如何组合多个RDD?我熟悉zip和map来组合具有相同行数的两个数据帧,但是

如何组合嵌套json的RDD?在

示例-组合这类值的3个RDD。-在{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "3",

"score2" : "",

"score3" : ""

}

}

{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "5",

"score3" : ""

}

}

{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "",

"score2" : "",

"score3" : "7"

}

}

在这样一排排的rdd中-{

"id": xx,

"a" : 1,

"b" : 2,

"c" : 3,

"d" : 4,

"scores"{

"score1" : "2",

"score2" : "5",

"score3" : "7"

}

}

谢谢!在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值