Spark RDD分区分区划分器

最新推荐文章于 2024-05-09 16:51:24 发布

小哇666

最新推荐文章于 2024-05-09 16:51:24 发布

阅读量483

点赞数 1

分类专栏： # spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_41712271/article/details/107770623

版权

spark 专栏收录该内容

76 篇文章 0 订阅

订阅专栏

分区

在Spark程序中，RDD是由SparkContext上下文生成的，一个数据源只能生成一个RDD对象（流处理场景中，指定多个消息源可以生成多个RDD，存在DStream中）。

RDD（Resilient Distributed Dataset）是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

分区（Partition），即数据集的基本组成单位。对于RDD来说，每个分区都会被一个计算任务Task处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分区个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目（取决于运行环境）。如果是从HDFS中创建，默认为文件的数据块数。

分区划分器

Spark默认提供两种划分器：哈希分区划分器（HashPartitioner）和范围分区划分器（RangePartitioner）,且Partitioner只存在（K, V）类型的RDD中，对于非(K, V)类型的Partitioner值为None。

//从test.txt 构建rdd
JavaRDD<String> rdd = sc.textFile("test.txt");
System.out.println("初始分区划分器：" + rdd.partitioner().toString());

输出：初始分区划分器：Optional.empty

HashPartitioner 是默认分区划分器，他的原理是对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID。但HashPartitioner易造成分区内数据不均匀（跟key的分布息息相关）。

RangePartitioner分区划分器可以解决数据分布不均匀问题，他能保证分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大，但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。

groupByKey()默认采用哈希分区划分器，当然也可以手动指定分区划分器（包括自定义分区划分器）

pairRDD.groupByKey(4); //默认哈希分区划分器，并指定分区数=4
OR
pairRDD.groupByKey(new HashPartitioner(4)); //指定哈希分区划分器，并指定分区数=4

对<K,V>结构的RDD，还可以手动使用分区划分器，使用partitionBy(Partitioner partitioner)函数

JavaPairRDD<String, Iterable<Integer>> groupRDD = pairRDD.groupByKey();
System.out.println("partitionBy前初始分区划分器：" + groupRDD.partitioner().toString());
groupRDD.partitionBy(new HashPartitioner(3)); //手动使用分区划分器
System.out.println("partitionBy后初始分区划分器：" + groupRDD.partitioner().toString());

请注意：如果rdd当前分区划分器与partitionBy指定的划分器相同，则不再进行分区划分，因此上述代码输出为

partitionBy前初始分区划分器：Optional[org.apache.spark.HashPartitioner@4]
partitionBy后初始分区划分器：Optional[org.apache.spark.HashPartitioner@4]

为了证明partitionBy指定HashPartitioner分区器没有生效，我们改变一下分区数，并打印

JavaPairRDD<String, Iterable<Integer>> groupRDD = pairRDD.groupByKey(2); //指定分区数2
System.out.println("partitionBy前分区数：" + groupRDD.getNumPartitions());
groupRDD.partitionBy(new HashPartitioner(4)); //指定分区数4
System.out.println("partitionBy后分区数：" + groupRDD.getNumPartitions());
输出：
partitionBy前分区数：2
partitionBy后分区数：2

指定分区的方法

并行化创建（创建rdd时指定）。指定生成n个分区的rdd

// 构造数据源
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
//并行化创建rdd
JavaRDD<Integer> rdd = sc.parallelize(data,n);

文件中创建（创建rdd时指定）。指定生成n个分区的rdd

//从test.txt 构建rdd
JavaRDD<String> rdd = sc.textFile("test.txt",n);

shuffle时指定。指定shuffle后新的rdd的分区数（n在最后）

JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
        public Integer call(Integer integer, Integer integer2) throws Exception {
            return integer + integer2;
        }
},n);

指定默认配置。请注意：此方式仅对shuffle后的rdd有效。即如果没有在创建rdd时指定分区数，该配置不会修改初始rdd的分区数，但是对shuffle后的新rdd有效。

补充：我之前有个疑问就是如果不指定分区，shuffle前和shuffle后的分区是不是变化的，经过本地测试，答案是会变化。

conf.set("spark.default.parallelism","n");

本地模式。貌似也只对并行化创建rdd有效，本地demo设置local[*]，打印从文件中创建的rdd分区数结果是2。这种方式不用太在意，本地只是测试用。

new SparkConf().setMaster(local[n]); //n 表示具体的分区数
或
new SparkConf().setMaster(local[*]); //*表示使用cpu core 数

脚本模式。没研究

Spark-shell --conf <key>=<value>
Spark-submit --conf <key>=<value>

综上
建议直接在操作rdd的函数中指定分区数，不仅优先级最高，而且保证准确性。

小哇666

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD分区分区划分器

分区在Spark程序中，RDD是由SparkContext上下文生成的，一个数据源只能生成一个RDD对象（流处理场景中，指定多个消息源可以生成多个RDD，存在DStream中）。RDD（Resilient Distributed Dataset）是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。分区（Partition），即数据集的基本组成单位。对于RDD来说，每个分区都会被一个计算任务Task处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分区
复制链接

扫一扫