def myp(x):
return x % 100
pp = F.udf(myp)
df = spark.range(900)
df.show()
df = df.repartitionByRange(pp('id'))
df.write.format('csv').save('output')
把 id%100 相等的数据放到一个partition
def myp(x):
return x % 100
pp = F.udf(myp)
df = spark.range(900)
df.show()
df = df.repartitionByRange(pp('id'))
df.write.format('csv').save('output')
把 id%100 相等的数据放到一个partition