java2个dataframe合并_pyspark编程对如下两个dataframe进行查询操作，如何提高效率?...

最新推荐文章于 2023-03-15 21:00:00 发布

Crazy anti

最新推荐文章于 2023-03-15 21:00:00 发布

阅读量177

点赞数

文章标签： java2个dataframe合并

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35782323/article/details/114897605

版权

1、有两个DataFrame：df1，df2都有共同的字段ACCTNO，df1中每行的ACCTNO字段唯一，需要遍历df1中的ACCTNO字段，并根据这些ACCTNO字段查询df2中对应的数据。

2、代码如下

`

def get_acctre(part,df2):

for raw in part:

ACCTNO = list(raw)[0]

acct_df = df2.filter("ACCTNO ='"+ACCTNO+"'")

df1.foreachPartition(lambda part:get_acctre(part,df2))

`

3、根据分析，发现把df2作为get_acctre()的参数就会报如下错误

PicklingError: Could not serialize object: Py4JError: An error occurred while calling o624.__getnewargs__. Trace:

py4j.Py4JException: Method __getnewargs__([]) does not exist

at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318)

at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326)

at py4j.Gateway.invoke(Gateway.java:272)

at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)

at py4j.commands.CallCommand.execute(CallCommand.java:79)

at py4j.GatewayConnection.run(GatewayConnection.java:214)

at java.lang.Thread.run(Thread.java:745)

4、由于df2不能作为参数传入函数get_acctre，如何才能高效率实现目的呢？才接触spark编程，还不熟悉相关函数，希望有大佬指点一二

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java2个dataframe合并_pyspark编程对如下两个dataframe进行查询操作，如何提高效率?...

1、有两个DataFrame：df1，df2都有共同的字段ACCTNO，df1中每行的ACCTNO字段唯一，需要遍历df1中的ACCTNO字段，并根据这些ACCTNO字段查询df2中对应的数据。2、代码如下`def get_acctre(part,df2):for raw in part:ACCTNO = list(raw)[0]acct_df = df2.filter("ACCTNO ='"+A...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。