Spring Cloud+Spring Boot+Mybatis+ElementUI_ SparkCore之Partitiion

 1.概念
首先先了解一下Spark RDD,Spark RDD是一种分布式的数据集,但是由于数据量很大,因此要它被切分并存储在各个结点的分区当中,这个“分区”就是Partition-

RDD包含多个Partition


如图RDD1就包含了4个Partition,RDD2包含了两个Partition

分区Partition定义:
partition 是弹性分布式数据集RDD的最小单元
partition 是指的spark在计算过程中,生成的数据在计算空间内最小单元
同一份数据(RDD)的partition 大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的
2.Spark Core的数据分区方式
HashPartitioner(哈希分区)
RangePartitioner(范围分区)
2.1.HashPartitioner
HashPartitioner采用哈希的方式对<Key,Value>键值对数据进行分区
分区规则
公式:partitionId = Key.hashCode % numPartitions
解释
partitionId代表该Key对应的键值对数据应当分配到的Partition标识
Key.hashCode表示该Key的哈希值
numPartitions表示包含的Partition个数
缺点
会带来分区数据不均衡的问题也就是分区倾斜
因为可能出现很多数据通过公式全部都得到相同的partitionId,也就是在某些分区数据很多,但是其他分区数据相对较少
这样会影响性能,举个极端的例子:当所有数据通过哈希分区结果全部都被划分到同一个分区,这就相当于没有分区了
2.2.RangePartitioner
出现的原由
目的是为了解决HashPartitioner所带来的分区倾斜问题
RangePartitioner基于抽样的思想来对数据进行分区
如图

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值