combineByKey算子

最新推荐文章于 2022-10-31 20:25:11 发布

土豆馅饼

最新推荐文章于 2022-10-31 20:25:11 发布

阅读量243

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/songchenglu123/article/details/103406364

版权

本文介绍了Spark的高级算子combineByKey，主要用于相同Key的数据聚合。它包含createCombiner、mergeValue和mergeCombiner三个关键函数，分别用于初始化、同分片内合并和跨分片合并。示例代码展示了如何使用combineByKey计算Key的平均值和Value的出现次数。

摘要由CSDN通过智能技术生成

combineByKey算子是Spark中一个非常高级的算子，很多我们常用的算子底层都是封装的他

combineByKey: 的主要作用是将同一个key的数据就行聚合，其实就是对相同的K，不同的V进行一顿操作让他变成新的V
但是combineByKey比较特殊的地方是，他的三个主要函数的含义。
combineByKey有三个主要的函数分别是：
createCombiner 对于当前KV中的V进行改造生成新的V，相当于mergeValue之前你有一次修改Value的机会
mergeValue 在同一分片中，相同的Key进行合并的时候，
mergeCombiner 将不同分片中的同一个key的combiner进行合并

这里我们需要注意的是这与其他我们常用的算子不一样的是，这里涉及到了分片，先同分片在不同的分片合并

代码如下，求一个key的平均值以及value出现的次数

val conf = new SparkConf().setAppName("SearchSessionAnalysis").setMaster("local[4]")
    val sc: SparkContext = new</

最低0.47元/天解锁文章

土豆馅饼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录