pyspark group_concat

最新推荐文章于 2023-05-30 18:19:58 发布

会spark的篮球少年

最新推荐文章于 2023-05-30 18:19:58 发布

阅读量1.4k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_15230053/article/details/82562901

版权

python 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

from pyspark.sql.column import Column
from pyspark.sql.column import _to_java_column
from pyspark.sql.column import _to_seq

spark = SparkSession.builder.appName("scala_udf_test").getOrCreate()
sc = spark.sparkContext

def group_concat(col):
_groupConcat = sc._jvm.com.learning.GroupConcat.apply
return Column(_groupConcat(_to_seq(sc, [col], _to_java_column)))

def process():
rows = [
("k1", "a"),
("k1", "b"),
("k1", "c"),
("k2", "d"),
("k3", "e"),
("k3", "f"),
]
df = spark.createDataFrame(rows, ['key', 'value'])
df.show(50)
df.groupBy("key").agg(group_concat("value").alias("concat")).show()

if __name__ == "__main__":
process()