spark性能优化 ----分区相关

本文参考了:https://www.jianshu.com/p/4b7d07e754fa

  1. 有以下几个参数:
    spark.default.parallelism:(默认的并发数)
    yarn模式下,spark.default.parallelism = max(所有executor使用的core总数, 2)。
    举个例子:spark-submit --class geo --master yarn --deploy-mode cluster --executor-memory 1G –num-executors 3 –executor-cores 4 /root/Ting.jar
    这里默认的partition个数就是 3*4=12 。
  2. spark.files.maxPartitionBytes = 128 M(默认) 代表着rdd的一个分区能存放数据的最大字节数,如果一个400m的文件,只分了两个区,则在action时会发生错误。
  3. 在Sparkcontext中有对应的参数 sc.defaultParallelism = spark.default.parallelism ; sc.defaultMinPartitions = min(spark.default.parallelism,2) 默认最小partition个数。

*经过实际运行spark程序发现,spark读取Hive表产生的Dataframe的partition个数与Hive表中文件block个数有关。也就是说,查询对应的hive数据文件有多少个block,相应产生的Dataframe就有多少个partition。
使用repartition(partitionExprs: Column)可以理解为按照给定的列进行hash排序,并且partition的个数=spark.sql.shuffle.partitions,而spark.sql.shuffle.partitions=200(默认)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值