pyspark udf returnType=ArrayType中是不同数据类型

静静_jingjing

已于 2023-02-22 16:31:13 修改

阅读量548

点赞数 1

分类专栏： pyspark 基础知识 python编程文章标签： pyspark

于 2023-02-22 16:16:21 首次发布

本文链接：https://blog.csdn.net/qq_39321513/article/details/129164569

版权

python编程同时被 3 个专栏收录

36 篇文章 1 订阅

订阅专栏

基础知识

18 篇文章 0 订阅

订阅专栏

pyspark

6 篇文章 0 订阅

订阅专栏

方法一：使用udf

df = hc.createDataFrame([[1,[1,2,3]],[2,[2,3,4]],[3,[3,4,5]]],['id','list'])

schema=StructType(
    [StructField('id', IntegerType(), True),
    StructField('list', ArrayType(IntegerType()), True)]
)
@F.udf(returnType=schema)
def func(_id, _list):
    return [_id, _list]
df2 = df.withColumn('id_list', func('id', 'list'))

方法二：使用map也能实现

def map_func(x):
    v = (x['id'], x['list'])
    return Row(
        id = x.id,
        list = x.list,
        id_list = v
    )
df_ = df.rdd.map(lambda x : map_func(x)).toDF()
df_.show(truncate=False)

然后id_list collect_list之后还能按照第一个位置的元素进行排序

df3 = df2.groupby().agg(
    F.collect_list('id_list').alias('id_lists')
)
df3.show(truncate=False)

@F.udf(returnType=ArrayType(ArrayType(IntegerType())))
def fc(id_lists):
    id_lists.sort(key = lambda x : x[0], reverse=True)
    return [x[1] for x in id_lists]
df4 = df3.withColumn('lists', fc('id_lists'))