pyspark行转列、列转行或宽表转窄表、窄表转宽表

最新推荐文章于 2022-08-12 21:44:49 发布

木给哇啦丶

最新推荐文章于 2022-08-12 21:44:49 发布

阅读量4.5k

点赞数 5

分类专栏： pyspark hive 文章标签： sql spark

本文链接：https://blog.csdn.net/lquarius/article/details/106685672

版权

列转行（宽表转窄表）

from pyspark.sql import functions as F


def unpivot(df, keys):
    # 参数说明 df  dataframe   keys 待转换表中需要保留的主键key，以list[]类型传入
    # 转换是为了避免字段类不匹配，统一将数据转换为string类型，如果保证数据类型完全一致，可以省略该句
    df = df.select(*[F.col(_).astype("string") for _ in df.columns])
    cols = [_ for _ in df.columns if _ not in keys]
    stack_str = ','.join(map(lambda x: "'%s', %s" % (x, x), cols))
    # feature, value 转换后的列名，可自定义
    df = df.selectExpr(*keys, "stack(%s, %s) as (feature, value)" % (len(cols), stack_str))
    return df

代码演示