spark分区

分区可以增加并行度,每次操作,worknode节点不会被完全占用,只会占用其中的一个分区,还可以减少通信开销
sc.textFile(path, partitionNum) 后者是分区个数
sc.parallelize(file, number)对数组的分区
.repartition(number)重新分区
len(rdd.glom().collect())显示rdd分区数量,collect是数组形式显示

自定义方法分区,实例:将[0,1,2,3,4,5,6,7,8,9]分别保存到余数不同的10个文件
from pyspark import SparkConf, SparkContext

def MyPartitioner(key):
  print("MyPartitioner is running")#making sure no mistake
  print("The key is %d" %key)
  return key%10#分区方法本质取余数
def main():
  print("The main function is running")
  conf = SparkConf().setMaster("local").setAppName("MyApp")#标准步骤
  sc = SparkContext(conf = conf)
  data = sc.parallelize(range(10),5)#5是分区
data.map(lambda x:(x,1)) \
    .partitionBy(10,MyPartitioner) \
    .map(lambda x:x[0])\
    saveAsTextFile("file:///usr/local/spark/mycode/rdd/partitioner")

if __name__ == '__main__':
   main()#这一行是限制引用,如果想import就不会经过这步,具体参考https://blog.csdn.net/heqiang525/article/details/89879056

执行时可以切换到工作目录下
python3 TestPartioner.py
或 /usr/local/spark/bin/saprk-sumit TestPartitioner.py

来源于厦门大学数据库林时雨老师课程总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值