pythonsparkfilter_过滤RDD基于条件并在Spark python中提取匹配的数据

最新推荐文章于 2024-02-04 17:11:34 发布

weixin_39847244

最新推荐文章于 2024-02-04 17:11:34 发布

阅读量205

点赞数

文章标签： pythonsparkfilter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39847244/article/details/111422093

版权

我有这样的数据,

cl_id cn_id cn_value

10004, 77173296 ,390.0

10004, 77173299 ,376.0

10004, 77173300 ,0.0

20005, 77173296 ,0.0

20005, 77173299 ,6.0

2005, 77438800 ,2.0

Cl_id ID：10004,20005

按10004过滤

10004, 77173296 ,390.0

10004, 77173299 ,376.0

按20005过滤

20005, 77173296 ,0.0

20005, 77173299 ,6.0

现在我想要返回RDD之类的,

10004,cn_id,x1(77173296.value,77173300.value) ==> 10004,77173296,390.0,376.0

20005,cn_id,x1(77173296.value,77173300.value) ==> 20005,77173296,0.0,6.0

我想对这个return_RDD执行一些操作：

def cal_for(rdd_list):

#list.map(position1).filter(cn_id for this formula)-> calculate that formula -> store in a separate RDD -> Return that RDD

rdd_list = rdd_list.map(lambda line:line.split(','))

new_list = rdd_list.map(lambda x: (x[0]+', '+x[1],float(x[2])))

new_list = rdd_list.filter(lambda x: x[1] == '77173296' && x[1] == '77173299')

## then get the RDD containing respective cn_values for cn_id 77173296 & cn_id 77173299

## and apply the following formula whre a=77173296.value b=77173299.value for cl_id 1004

try:

# want to process RDD with this Formula

return ((float(a)/float(a+b))*100)

except ZeroDivisionError:

return 0

#return or save cal_RDD

不是过滤RDD两次,修改和重新组合生成的RDD,只需按id分组,然后映射值以进行所需的任何更改.如果要根据某些条件进一步限制结果,请在映射时执行过滤.

我真的不能给你一个更准确的答案：

a)看起来你还没有真正尝试过这个,而且b)我不完全确定你想要什么.

weixin_39847244

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pythonsparkfilter_过滤RDD基于条件并在Spark python中提取匹配的数据

我有这样的数据,cl_id cn_id cn_value10004, 77173296 ,390.010004, 77173299 ,376.010004, 77173300 ,0.020005, 77173296 ,0.020005, 77173299 ,6.02005, 77438...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。