java list 多列_如何按多列分组并在PySpark中列表？

最新推荐文章于 2023-02-17 16:35:45 发布

门田木

最新推荐文章于 2023-02-17 16:35:45 发布

阅读量152

点赞数

文章标签： java list 多列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34509784/article/details/114614354

版权

这可能会完成你的工作(或者给你一些进一步的想法)......

一个想法是将 col4 转换为原始数据类型，即字符串：

from pyspark.sql.functions import collect_list

import pandas as pd

a = [[u'PNR1',u'TKT1',u'TEST',u'a2',u'a3'],[u'PNR1',u'TKT1',u'TEST',u'a5',u'a6'],[u'PNR1',u'TKT1',u'TEST',u'a8',u'a9']]

rdd = sc.parallelize(a)

df = rdd.map(lambda x: (x[0],x[1],x[2], '(' + ' '.join(str(e) for e in x[3:]) + ')')).toDF(["col1","col2","col3","col4"])

df.groupBy("col1","col2","col3").agg(collect_list("col4")).toPandas().values.tolist()[0]

#[u'PNR1', u'TKT1', u'TEST', [u'(a2 a3)', u'(a5 a6)', u'(a8 a9)']]

UPDATE (在你自己的答案之后)：

我真的认为我已经达到的目的足以根据你的需要进一步调整它，而且我现在没有时间自己做这件事;所以，这里是(在修改我的 df 定义以摆脱括号后，它只是一个列表理解的问题)：

df = rdd.map(lambda x: (x[0],x[1],x[2], ' '.join(str(e) for e in x[3:]))).toDF(["col1","col2","col3","col4"])

# temp list:

ff = df.groupBy("col1","col2","col3").agg(collect_list("col4")).toPandas().values.tolist()[0]

ff

# [u'PNR1', u'TKT1', u'TEST', [u'a2 a3', u'a5 a6', u'a8 a9']]

# final list of lists:

ll = ff[:-1] + [[x.split(' ') for x in ff[-1]]]

ll

这给出了您最初请求的结果：

[u'PNR1', u'TKT1', u'TEST', [[u'a2', u'a3'], [u'a5', u'a6'], [u'a8', u'a9']]] # requested output

与您自己的答案中提供的方法相比，这种方法有一定的道理性：

它避免了Pyspark UDF，这是known to be slow

所有处理都在最终(并且希望小得多)聚合数据中完成，而不是在初始(可能更大)的数据中添加和删除列并执行映射函数和UDF

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。