Spark高级算子aggregate所遇到的坑

最新推荐文章于 2023-08-17 20:15:11 发布

JustDoDT

最新推荐文章于 2023-08-17 20:15:11 发布

阅读量1.1k

点赞数 2

文章标签： spark 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuzhuang2017/article/details/83115626

版权

aggregate操作

先对局部聚合，再对全局聚合

示例：val rdd1 = sc.parallelize(List(1,2,3,4,5), 2)

查看每个分区中的元素：

将每个分区中的最大值求和，注意：初始值是0；

如果初始值时候10，则结果为：30，因为在局部操作和全局操作的时候都要计算初始值

如果是求和，注意：初始值是0：

如果初始值是10，则结果是：45

一个字符串的例子：

val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)

修改一下刚才的查看分区元素的函数

def func2(index: Int, iter: Iterator[(String)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

两个分区中的元素：

[partID:0, val: a], [partID:0, val: b], [partID:0, val: c],

[partID:1, val: d], [partID:1, val: e], [partID:1, val: f]

运行结果：

更复杂一点的例子

val rdd3 = sc.parallelize(List("12","23","345","4567"),2)

rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

两个分区先计算出字符串的最大长度，然后合成字符串

结果可能是：”24”，也可能是：”42”，体现了并行化特点。

val rdd4 = sc.parallelize(List("12","23","345",""),2)

rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”10”，也可能是”01”，

原因：注意有个初始值””，其长度0，然后0.toString变成字符串。值"0".toString的长度为0,"0".toString.length的长度为1 。分区可能为（“12”，“23”）和（“345”，“”）；初始值为""，然后初始值和“12”，“34”比较，或者是""和“345”比较，然后和“”比较。

math.min("".length, "12".length ) 的结果是：0 , math.min("0".length, "23".length ) 的结果是1

math.min("".length, "345".length) 的结果是：0 , math.min("0".length, "".length) 的结果是：0

val rdd5 = sc.parallelize(List("12","23","","345"),2)

rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”11”，原因如下：

math.min("".length, "12".length ) 的结果是：0 , math.min("0".length, "23".length ) 的结果是：1

math.min("".length, "".length) 的结果是：0 , math.min("0".length, "345".length) 的结果是：1

注意：值"0".toString的长度为0,"0".toString.length的长度为1

欢迎大佬们扫下面二维码关注我个人微信公众号（Java大数据架构师成长之路）

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。