pyspark mapPartitions用法

最新推荐文章于 2024-01-08 10:56:07 发布

WGS.

最新推荐文章于 2024-01-08 10:56:07 发布

阅读量4.2k

点赞数 1

分类专栏： # spark 文章标签： spark 大数据 big data

本文链接：https://blog.csdn.net/qq_42363032/article/details/121164238

版权

spark 专栏收录该内容

69 篇文章

订阅专栏

mapPartitions 对一个分区进行操作，如果要实现向map一样的处理，函数里面需要遍历分区中的每一行。

def f(partitionData):
  for element in partitionData:
    pass
  # return updated data
  
df.rdd.mapPartitions(f)

+---------------+-----+
|           name|bonus|
+---------------+-----+
|    James,Smith|300.0|
|      Anna,Rose|410.0|
|Robert,Williams|620.0|
+---------------+-----+


def reformat(partitionData):
  updatedData = []
  for row in partitionData:
    name=row.firstname+","+row.lastname
    bonus=row.salary*10/100
    updatedData.append([name,bonus])
  return iter(updatedData)

df2=df.rdd.mapPartitions(reformat).toDF(["name","bonus"])