combineBykey的使用计算平均分

最新推荐文章于 2022-10-31 20:25:11 发布

shining0903lxy

最新推荐文章于 2022-10-31 20:25:11 发布

阅读量608

点赞数

文章标签： combineBykey的使用计算平均分

本文链接：https://blog.csdn.net/weixin_43548518/article/details/103401350

版权

本文通过实例讲解如何使用Spark的combineByKey算子来计算姓名对应的分数平均值。首先定义了一个包含姓名和分数的RDD，并详细阐述了combineByKey的三个关键方法：createCombiner、mergeValue和mergeCombiners的执行过程。在分区内部，createCombiner处理首次出现的数据，mergeValue处理后续数据；而在分区间，通过mergeCombiners进行数据合并。理解这些要点是掌握combineByKey的关键。

摘要由CSDN通过智能技术生成

定义一个RDD，里面是元祖，key是姓名 value是分数，此RDD有三个分区如下

val input = sc.parallelize(Array((Fred,88), (Fred,95), (Fred,91), (Wilma,93), (Wilma,95), (Wilma,98)))
scala> input.mapPartitionsWithIndex((index,iter)=>Iterator(index+":"+ iter.mkString("-"))).collect
res3: Array[String] = Array(0:(Fred,88)-(Fred,95), 1:(Fred,91)-(Wilma,93), 2:(Wilma,95)-(Wilma,98))

使用combineByKey

  val combine = input.combineByKey(
     |     (v)=>(v,1),
     |     (acc:(Int,Int),v)=>(acc._1+v,acc._2+1),
     |     (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2))

解释如下
combineBykey的算子定义如下

def combineByKey[C](createCombiner: Int => C,mergeValue: (C, Int) => C,mergeCombiners: (C, C) => C): org.apache.spark.rdd.RDD[(String, C)]

算子包含三个方法
方法一&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shining0903lxy

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

简单的combineByKey算子【看完就懂系列】

乔治大哥的博客

11-18

840

代码先行： val conf = new SparkConf() .setMaster("local") .setAppName("CbkDemo") val sc = new SparkContext(conf) sc.setLogLevel("error") val rdd: RDD[(String, Double)] = sc.para...

Spark RDD算子【三】combineByKey

freefish_yzx的博客

08-23

379

createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素， combineByKey() 会使用一个叫作 createCombiner() 的函数来创建那个键对应的累加器的初始值（有时候能起到类型转换的功能） mergeValue: 如果这是一个在处理当前分区之前已经遇到的键，它会使用 mergeValue() 方法将该键的累加器对应的当前值与这个新的值进行合并 mergeCombi

1 条评论您还未登录，请先登录后发表或查看评论

combineByKey算子求解平均值实例

andyliuzhii的专栏

08-07

1388

不同场景平均值算法求平均值系列之一： val input = sc.parallelize(Seq(("t1", 1), ("t1", 2), ("t1", 3), ("t2", 2), ("t2", 5))) val result = input.combineByKey( (v) => (v, 1), (acc: (Int, Int), v) => (acc._1 +

MapReduce ： Combiner的使用(以平均数为例) 并结合in-mapper design pattern 实例

半睡半醒半浮生

04-10

452

没有使用Combiner 和 in-mapper desgin pattern import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.io.IntWritable; ...

Spark算子[08]：combineByKey详解

行走的树

12-11

948

combineByKey聚合数据一般在集中式数据比较方便，如果涉及到分布式的数据集，该如何去实现呢。这里介绍一下combineByKey, 这个是各种聚集操作的鼻祖，应该要好好了解一下，可以参考Spark API。更好的，可以将spark的源码包加载到Idea工具中，Spark源码包下载。源码 /** * @see [[combineByKeyWithClassTag]] *

深入理解spark高阶算子combineByKey

我爱智能

10-31

1268

深入理解spark的combinebykey算子

SparkCore算子之CombineByKey使用

qq_38744955的博客

05-07

676

*SparkCore算子之CombineByKey使用 package com.bigdata.spark.core.rdd.oper.transform import org.apache.spark.{SparkConf, SparkContext} object RDD_Oper_Transform { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").set...

Sprak combineByKey详解

jxt120433的博客

08-11

364

1、背景在数据分析中，处理Key，Value的Pair数据是极为常见的场景，例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看，这些操作具有共同的特征，都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同类型，也可以是不同类型。这种数据处理操作并非单纯的对Pair的value进行map，而是针对不同的key值对原有的value进行联合（Combine）。因而，不仅类型可能不同，元素个数也可能不同。 com

Spark RDD算子(五) CombineByKey

timicai的博客

11-11

354

CombineByKey 聚合数据一般在集中式数据比较方便，如果涉及到分布式的数据集，可以使用combineByKey, 这个是各种聚集操作的鼻祖 def combineByKey[C](createCombiner : Function1[V, C], mergeValue : Function2[C, V, C], mergeCombiners : Function2[C, C, C]) : RDD[scala.Tuple2[K, C]] combineByKey涉及三个方法：createComb

Spark核心RDD：combineByKey函数详解

热门推荐

Javis486的专栏

09-14

3万+

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用 groupByKey实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版本期函数名更新为combineByKeyWithClassTag) def combineByK

combineByKey函数详解

yuxiang1014的专栏

09-13

1595

如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag) def combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, ...

Spark RDD操作：combineByKey函数详解

sunyang098的博客

04-26

1603

当数据集一键值对形式组织的时候，聚合具有相同键的元素进行一些统计是很常见的操作。对于Pair RDD常见的聚合操作如：reduceByKey，foldByKey，groupByKey，combineByKey。这里重点要说的是combineByKey。因为combineByKey是Spark中一个比较核心的高级函数，groupByKey,reduceByKey都是基于combineByKey实现的

combineByKey的使用

影密卫

07-25

3064

combineByKey的使用 def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] def combineByKey[C](createCombiner: (V) => C, mergeValu...

Spark 按key聚合求平均值与占比

bitcarmanlee的博客

08-27

8551

1.求key的平均值 k,v结构的数据中，求每个key对应的平均值，在spark中怎么应该怎么求？例如有如下的数据: ("a",10) ("b",4) ("a",10) ("b",20) 想求a,b对应的平均值。直接上代码 sc.parallelize(List(("a",10),("b",4),("a",10),("b",2

用python计算数据的方差_用python求数据表中数据的均值与方差

weixin_42299679的博客

02-12

4792

展开全部以下为代码：numstr = input("请输入全部数据：用英文逗号(,)，中文逗号(，)，\空格( )，制表符(tab键)或换行(请一次性复62616964757a686964616fe58685e5aeb931333436323233制过来)中的一种统一分隔数据：")if "," in numstr:numlist = numstr.split(",")elif "，" in num...

bigdecimal 平均数_MapReduce实例-必须用Combine--求平均数

weixin_31036949的博客

01-31

461

本身求平均数很简单的，必须用到combine的话我在两个地方废了很多时间，一是combine的输入不仅仅是map的输出，还有可能是combine的输出，所以对value的处理得分两种情况吧；二是结果要保留4位有效数字。。。噗，注意保留4位有效数字不等于小数点后面有四位，第二不能用parse！它只能转成整形。第三，代码写的实在比较挫，哎。import java.io.IOException;impo...

MapReduce基础编程——combiner基础运用

weixin_45769285的博客

05-21

302

内容：假设一个年级有两个班级，数据分别在class1.csv和class2.csv中，求该年级的数学成绩平均值。数据第一列为学号，第二列为数学成绩。要求，必须使用Combiner类，且最后输出一行数据，该行仅有一个平均值。结果（一）自定义Writable import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Wri

Spark—聚合操作—combineByKey

sicofield的专栏

03-22

1万+

聚合操作——combineByKey当数据集一键值对形式组织的时候，聚合具有相同键的元素进行一些统计是很常见的操作。对于Pair RDD常见的聚合操作如：reduceByKey，foldByKey，groupByKey，combineByKey。这里重点要说的是combineByKey。在数据分析中，处理Key，Value的Pair数据是极为常见的场景，例如我们可以针对这样的数据进行分组、聚合或者将

spark中combinebykey使用