Spark基础之 Partition

最新推荐文章于 2023-04-21 21:37:17 发布

走向自由

最新推荐文章于 2023-04-21 21:37:17 发布

阅读量1.3k

点赞数 1

分类专栏： spark

原文链接：https://www.cnblogs.com/tongxupeng/p/10435976.html

版权

spark 专栏收录该内容

24 篇文章 2 订阅

订阅专栏

本文是Spark知识总结帖，讲述Spark Partition相关内容。

1 什么是Partition

Spark RDD 是一种分布式的数据集，由于数据量很大，因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时，实际上是对每个分区中的数据并行操作。

图一：数据如何被分区并存储到各个结点

图二：RDD、Partition以及task的关系

参考： https://blog.csdn.net/zhangzeyuan56/article/details/80935034

2 Partition定义和初始化

查看spark源码，trait Partition的定义很简单，序列号index和hashCode方法。Partition和RDD是伴生的，即每一种RDD都有其对应的Partition实现，所以，分析Partition主要是分析其子类。我们关注两个常用的子类，JdbcPartition和HadoopPartition。此外，RDD源码中有5个方法，代表其组成，如下:

第二个方法，getPartitions是数据源如何被切分的逻辑，返回值正是Partition，第一个方法compute是消费切割后的Partition的方法，所以学习Partition，要结合getPartitions和compute方法。

JdbcPartition例子
下面是Spark JdbcRDDSuite中一个例子

val sc = new SparkContext("local[1]", "test")
val rdd = new JdbcRDD(
sc,
() => { DriverManager.getConnection("jdbc:derby:target/JdbcRDDSuiteDb") },
// DATA类型为INTEGER
"SELECT DATA FROM FOO WHERE ? <= ID AND ID <= ?",
1, 100, 3,
(r: ResultSet) => { r.getInt(1) } ).count()

查看JdbcPartition实现，相比Partition，主要多了lower和upper这两个字段。

查看JdbcRDD的getPartitions，按照如上图所示算法将1到100分为3份(partition数量)，结果为(1,33)、(34,66)、(67,100)，封装为JdbcPartition并返回，这样数据切分的部分就完成了。

查看JdbcRDD的compute方法，逻辑清晰，将Partition强转为JdbcPartition，获取连接并预处理sql，将
例子中的”SELECT DATA FROM FOO WHERE ? <= ID AND ID <= ?”问号分别用Partition的lower和upper替换(即getPartitions切分好的(1,33)、(34,66)、(67,100))并执行查询。至此，JdbcPartition如何发挥作用就分析完了。

参考：https://blog.csdn.net/u011564172/article/details/53611109

3 Partitioner 定义和用途

HashPartitioner简介

HashPartitioner采用哈希的方式对<Key，Value>键值对数据进行分区。其数据分区规则为 partitionId = Key.hashCode % numPartitions，其中partitionId代表该Key对应的键值对数据应当分配到的Partition标识，Key.hashCode表示该Key的哈希值，numPartitions表示包含的Partition个数。图3简单描述了HashPartitioner的数据分区过程。

RangePartitioner简介

Spark引入RangePartitioner的目的是为了解决HashPartitioner所带来的分区倾斜问题，也即分区中包含的数据量不均衡问题。HashPartitioner采用哈希的方式将同一类型的Key分配到同一个Partition中，因此当某一或某几种类型数据量较多时，就会造成若干Partition中包含的数据过大问题，而在Job执行过程中，一个Partition对应一个Task，此时就会使得某几个Task运行过慢。RangePartitioner基于抽样的思想来对数据进行分区。图4简单描述了RangePartitioner的数据分区过程。

Partitioner 用途

主要用在groupByKey, reduceByKey, repartition(n)这些需要shuffle操作的过程中。

参考： https://www.cnblogs.com/tongxupeng/p/10435976.html

https://www.jianshu.com/p/391d42665a30

4 Partition 参数设置

Partition数量的影响

Partition数量太少
太少的影响显而易见，就是资源不能充分利用，例如local模式下，有16core，但是Partition数量仅为8的话，有一半的core没利用到。
Partition数量太多
太多，资源利用没什么问题，但是导致task过多，task的序列化和传输的时间开销增大。
那么多少的partition数是合适的呢，这里我们参考spark doc给出的建议，Typically you want 2-4 partitions for each CPU in your cluster。

为什么不是partition数目不是和core 数量 1：1？

个人认为，是partition对于的task直接有先后衔接关系，map -> transfer -> reduce 这样两到三个task可以同时在一个core上运行。

参考：https://spark.apache.org/docs/latest/tuning.html#level-of-parallelism

https://blog.csdn.net/u011564172/article/details/53611109