Spark RDD- Partitioner

最新推荐文章于 2022-06-30 19:03:44 发布

无问昨天与明天

最新推荐文章于 2022-06-30 19:03:44 发布

阅读量203

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/wanglongsuccess/article/details/81319930

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

partitioner是Spark RDD的重要组成部分，记录了数据split的逻辑是shuffle过程中key重新分区的策略，决定了key被分到哪个分区内，RDD是k-v二元组数据形式时可继承Partitioner自定义分区。

** *
  * 自定义分区逻辑：对words集合中每个word只分到一个分区内
  *
  * @param words
  */
class MyPartitioner(words: Array[String]) extends Partitioner {
  // 定义word与分区编号映射关系map
  val wordMap = new mutable.HashMap[String, Int]()
  var count = 0
  for (word <- words) {
    wordMap += (word -> count)
    count += 1
  }

  //分区数量与word数量一致
  override def numPartitions: Int = words.length

  //获取分区编号
  override def getPartition(key: Any): Int = {
    wordMap(key.toString)
  }
// 自定义分区
rdd.partitionBy(new MyPartitioner(words))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

无问昨天与明天

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD- Partitioner

partitioner是Spark RDD的重要组成部分，记录了数据split的逻辑是shuffle过程中key重新分区的策略，决定了key被分到哪个分区内，RDD是k-v二元组数据形式时可继承Partitioner自定义分区。** * * 自定义分区逻辑：对words集合中每个word只分到一个分区内 * * @param words */class MyPartitio...
复制链接

扫一扫