pyspark dataframe 自定义分区器

最新推荐文章于 2023-04-18 09:05:52 发布

NoOne-csdn

最新推荐文章于 2023-04-18 09:05:52 发布

阅读量1.2k

点赞数

分类专栏： pyspark

本文链接：https://blog.csdn.net/weixin_40161254/article/details/107020194

版权

pyspark 专栏收录该内容

63 篇文章 9 订阅

订阅专栏

 def myp(x):
 	return x % 100

 pp = F.udf(myp)
 df = spark.range(900)
 df.show()
 df = df.repartitionByRange(pp('id'))
 df.write.format('csv').save('output')

把 id%100 相等的数据放到一个partition

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NoOne-csdn

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pyspark dataframe 自定义分区器

def myp(x): return x % 100 pp = F.udf(myp) df = spark.range(900) df.show() df = df.repartitionByRange(pp('id')) df.write.format('csv').save('output')把 id%100 相等的数据放到一个partition
复制链接

扫一扫