spark从入门到放弃二十六:Spark 性能优化(9)reduceByKey和groupByKey

最新推荐文章于 2023-08-16 15:03:52 发布

WQ同学

最新推荐文章于 2023-08-16 15:03:52 发布

阅读量3.9k

点赞数

分类专栏：大数据 spark 文章标签： spark 性能优化

本文链接：https://blog.csdn.net/u012957549/article/details/79704831

版权

spark 同时被 2 个专栏收录

122 篇文章 15 订阅

订阅专栏

大数据

43 篇文章 1 订阅

订阅专栏

文章地址：http://www.haha174.top/article/details/259354
举个例子

val counts=pairs.reduceByKey(_+_)
val counts=pairs.groupByKey().map(wordcounts=>(wordcounts._1,wordcounts_2.sum))

如果能用reduceByKey那就用reduceByKey，因为它会在map端，先进行本地combine，可以大大的减少要传输到reduce端的数据量，减少网路传输的开销
只有在reduceByKey 处理不了的时候才会用groupbByKey.map()来替代

下面给出一个图解介绍一下val counts=pairs.groupByKey().map(wordcounts=>(wordcounts._1,wordcounts_2.sum))
这里写图片描述

下面给出一个图解介绍一下val counts=pairs.reduceByKey(_+_)
这里写图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WQ同学

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark基础入门篇 | MapReduce原理 + Spark原理 + PySpark环境搭建 + 简单实战

weixin_43646592的博客

05-31

912

Spark基础入门篇 | MapReduce原理 + Spark原理 + PySpark环境搭建 + 简单实战

Spark性能优化指南——高级篇（解决倾斜、Shuffle调优）-shuffle几种方式

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

12-25

752

前言本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩

参与评论您还未登录，请先登录后发表或查看评论

Spark常用的算子总结（5）—— groupByKey

08-11

940

按Key进行分组，输入List(("A",1),("B",2),("A",2),("B",3)) 输出 (B,(2, 3)) (A,(1, 2)) 然后对key进行个数统计 # (A,2) # (B,2) //省略 val arr = List(("A",1),("B",2),("A",2),("B",3)) val rdd = sc...

在Spark中尽量少使用GroupByKey函数

张伟的专栏

06-11

2462

为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用reduceByKey ；另外一种方式使用groupByKey，代码如下： 01 # User: 过往记忆 02 # Date: 2015-05-18 03 #

Groupbykey优化

purisuit_knowledge的专栏

11-06

844

本文可以参考： https://www.jianshu.com/p/09912beb1350 https://blog.csdn.net/faan0966/article/details/80513260 https://blog.csdn.net/u013514928/article/details/56680825 深入理解一下aggregateByKey函数在计算中，...

Spark中groupByKey() 和 reduceByKey() 和combineByKey()

大数据

07-03

2639

在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDD,也是对每个key进行操作，但只生成一个sequence，groupByKey本身不能自定义函数，需要先用groupByKey生成RDD，然后才能对此RDD通过map进行自定义函数操作。是对key的value进行merge操作，在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的

Spark代码可读性与性能优化——示例六（groupBy、reduceByKey、aggregateByKey）

蒋含竹的博客

05-16

5584

文章目录Spark代码可读性与性能优化——示例六（GroupBy、ReduceByKey）0. 需求：统计历年全国高考生中数学成绩前100名1. 数据示例2. 存在问题的代码示例3. 如何解决代码中的问题？4. 最终代码，以及附其他代码 Spark代码可读性与性能优化——示例六（GroupBy、ReduceByKey） 0. 需求：统计历年全国高考生中数学成绩前100名 1. 数据示例 i...

spark3.0入门到精通

04-10

├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 ...│ 07-[面试题]-RDD的聚合reduceByKey和groupByKey.mp4 │ 10-[掌握]-RDD的缓存-持久化.mp4 │ 15-[了解]-外部数据源-操作JDBC-读.mp4

大数据：Spark性能优化指南——高级篇

大数据Spark教程

12-20

631

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。 Spark性能优化指南——基础篇数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方...

Spark性能优化：数据倾斜调优

OH LEI``

10-18

147

数据倾斜调优调优概述　　有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象　　1、绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余...

groupby优化

江黎

01-16

178

Spark中groupByKey算子详解介绍