spark aggregateByKey函数使用问题

最新推荐文章于 2023-08-16 15:52:42 发布

learneraiqi

最新推荐文章于 2023-08-16 15:52:42 发布

阅读量4.8k

点赞数 2

分类专栏： Spark相关文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/learneraiqi/article/details/50393102

版权

Spark相关专栏收录该内容

13 篇文章 0 订阅

订阅专栏

aggregateByKey

样例代码

val conf = new SparkConf().setAppName("SparkTest").setMaster("local[*]")
val sc = new SparkContext(conf)

val data = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3)))

def seq(a:Int, b:Int): Int = {
  println("seq: " + a + "\t " + b)
  math.max(a, b)
}

def comb(a:Int,b:Int):Int={
  println("comb : "+a+"\t"+b)
  a+b
}
val result = data.aggregateByKey(0)(seq,comb)  //.collect()
result.collect().foreach(println)

函数介绍：

aggregateByKey函数对PairRDD中相同Key的值进行聚合操作，在聚合过程中同样使用了一个中立的初始值

例如我们的样例数据应该返回：（1,9）（2,3）

问题：

当我们conf设置为

（1）setMaster("local")，不执行comb，也就是返回结果没有累加

（2）

setMaster("local[2]")，执行comb，但是返回结果为(1,7),(2,3)

(3)

setMaster("local[3]")

或者

setMaster("local[*]")，执行comb，返回结果使我们预期的(1,9），（2,3）

总结：

怀疑对于data的计算默认使用并行计算，而我们设置lcoal时没有指定所用的cores数目，导致并行计算无法执行，只能保持某个计算结果，最终导致计算结果的错误。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
spark aggregateByKey函数使用问题

aggregateByKey样例代码val conf = new SparkConf().setAppName("SparkTest").setMaster("local[*]")val sc = new SparkContext(conf)val data = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3)))def s
复制链接

扫一扫

专栏目录

learneraiqi CSDN认证博客专家 CSDN认证企业博客

码龄9年

27: 原创

13万+: 周排名

187万+: 总排名

31万+: 访问

: 等级

3059: 积分

46: 粉丝

118: 获赞

32: 评论

169: 收藏

私信

关注

热门文章

分类专栏

PMP
R语言 16篇
Spark相关 13篇
linux相关 12篇
在通往山峰的路上 1篇
杂七杂八 1篇
软件工程 1篇
zookeeper
kafka
scala 1篇
hadoop 4篇
java 3篇
python 1篇
spring-boot 3篇

最新评论

rstudio-server安装问题解决笔记
Jing 我愿。: 我还是web页面无法访问。所有的步骤都对，这是为什么呢？防火墙需要关闭是吗？ # service iptables status Redirecting to /bin/systemctl status iptables.service Unit iptables.service could not be found. 我用的是 # firewalld # firewall-cmd --permanent --add-port=8787/tcp --zone=public #success #--permanent永久添加，否则重启失效 # firewall-cmd --permanent --add-port=8787/udp #success # firewall-cmd --reload #success
SparkR的安装配置
楠木曦: 大神，我第一步的源就报错了
决策树——CART——之R语言rpart包
hyryj: 看见学长好激动
决策树——CART——之R语言rpart包
learneraiqi: # 在控制台中直接输入result即可查看预测的结果，由于数目较多，我们写一个小的程序，将预测结果是yes,no的向量，如果想看元数据+结果，需要自己将元数据矩阵与结果根据index拼接起来
决策树——CART——之R语言rpart包
learneraiqi: # 在控制台中直接输入result即可查看预测的结果，由于数目较多，我们写一个小的程序，将预测

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。