分区可以增加并行度,每次操作,worknode节点不会被完全占用,只会占用其中的一个分区,还可以减少通信开销
sc.textFile(path, partitionNum) 后者是分区个数
sc.parallelize(file, number)对数组的分区
.repartition(number)重新分区
len(rdd.glom().collect())显示rdd分区数量,collect是数组形式显示
自定义方法分区,实例:将[0,1,2,3,4,5,6,7,8,9]分别保存到余数不同的10个文件
from pyspark import SparkConf, SparkContext
def MyPartitioner(key):
print("MyPartitioner is running")#making sure no mistake
print("The key is %d" %key)
return key%10#分区方法本质取余数
def main():
print("The main function is running")
conf = SparkConf().setMaster("local").setAppName("MyApp")#标准步骤
sc = SparkContext(conf = conf)
data = sc.parallelize(range(10),5)#5是分区
data.map(lambda x:(x,1)) \
.partitionBy(10,MyPartitioner) \
.map(lambda x:x[0])\
saveAsTextFile("file:///usr/local/spark/mycode/rdd/partitioner")
if __name__ == '__main__':
main()#这一行是限制引用,如果想import就不会经过这步,具体参考https://blog.csdn.net/heqiang525/article/details/89879056
执行时可以切换到工作目录下
python3 TestPartioner.py
或 /usr/local/spark/bin/saprk-sumit TestPartitioner.py
来源于厦门大学数据库林时雨老师课程总结