SparkCore中的combineByKey的使用

最新推荐文章于 2022-10-31 20:25:11 发布

飞天小老头

最新推荐文章于 2022-10-31 20:25:11 发布

阅读量362

点赞数

分类专栏： SPARK 文章标签： scala 开发语言 spark

本文链接：https://blog.csdn.net/AnameJL/article/details/121847403

版权

SPARK 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在我们编写SparkCore代码时通常使用的聚合类算子有reduceByKey、aggregateByKey、foldByKey，但是这三个算子底层都调用了combineByKey算子,这里就介绍一下如何使用combineByKey

首先我们看一下使用这个算子要传入哪些参数,如下图所示

这里主要以红框中的作为使用
参数讲解
通过上图我们可以看出使用这个算子我们最少要传入三个函数作为参数这里在代码中对三个参数进行讲解

// 创建一个值为Tuple2类型的数组
val arr = Array(("Tom",3),("Tom",4),("Jerry",1),("Jerry",9),("Ken",5))

// 将数组并行化
val rdd = sc.parallelize(arr)
   /**
     * 1. 第一个函数表示对第一个值的处理,这里为了体现效果我将第一个值添加到ArrayBuffer中.
     * 2. 第二个函数是局部聚合的处理函数,但是函数的第一个参数要同第一个函数中的值的数据类型形同,因为我将第一个函数添加到了ArrayBuffer中所以,
     *    第二个函数的第一个参数的数据类型就为ArrayBuffer,后面就是聚合逻辑.
     * 3. 第三个函数是全局聚合的处理函数,函数中的参数的数据类型要同第二个函数处理完成的值的数据类型形同,应为经过局部聚合的处理,
     *    所有的数值的数据类型已经是相同的.
     */
val array = rdd.combineByKey(
  x => ArrayBuffer(x),  // 函数一
  (a : ArrayBuffer[Int], b : Int) => a += b, // 函数二
  (m : ArrayBuffer[Int], n : ArrayBuffer[Int]) => m ++= n // 函数三
).collect

// 将结果数据打印出来
for (elem <- array) {
  println("Key:" + elem._1 + "  Value:" + elem._2)
}

结果数据如下图所示

在这里插入图片描述
这里就是combineByKey的使用.

飞天小老头

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkCore中的combineByKey的使用

在我们编写SparkCore代码时通常使用的聚合类算子有reduceByKey、aggregateByKey、foldByKey，但是这三个算子底层都调用了combineByKey算子,这里就介绍一下如何使用combineByKey首先我们看一下使用这个算子要传入哪些参数,如下图所示这里主要以红框中的作为使用参数讲解通过上图我们可以看出使用这个算子我们最少要传入三个函数作为参数这里在代码中对三个参数进行讲解// 创建一个值为Tuple2类型的数组val arr = Array(("To
复制链接

扫一扫

专栏目录