Spark高级算子aggregate所遇到的坑

aggregate操作

先对局部聚合,再对全局聚合

示例:val rdd1 = sc.parallelize(List(1,2,3,4,5), 2)

查看每个分区中的元素:

将每个分区中的最大值求和,注意:初始值是0;

如果初始值时候10,则结果为:30,因为在局部操作和全局操作的时候都要计算初始值

如果是求和,注意:初始值是0:

如果初始值是10,则结果是:45

一个字符串的例子:

val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)

修改一下刚才的查看分区元素的函数

def func2(index: Int, iter: Iterator[(String)]) : Iterator[String] = {

  iter.toList.map(x => "[partID:" +  index + ", val: " + x + "]").iterator

}

两个分区中的元素:

[partID:0, val: a], [partID:0, val: b], [partID:0, val: c],

[partID:1, val: d], [partID:1, val: e], [partID:1, val: f]

运行结果:

更复杂一点的例子

val rdd3 = sc.parallelize(List("12","23","345","4567"),2)

rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

两个分区先计算出字符串的最大长度,然后合成字符串

结果可能是:”24”,也可能是:”42”,体现了并行化特点。

val rdd4 = sc.parallelize(List("12","23","345",""),2)

rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是:”10”,也可能是”01”,

原因:注意有个初始值””,其长度0,然后0.toString变成字符串。值"0".toString的长度为0,"0".toString.length的长度为1 。分区可能为(“12”,“23”)和(“345”,“”);初始值为"",然后初始值和“12”,“34”比较,或者是""和“345”比较,然后和“”比较。

math.min("".length, "12".length ) 的结果是:0 , math.min("0".length, "23".length ) 的结果是1

math.min("".length, "345".length) 的结果是:0 , math.min("0".length, "".length)  的结果是:0  

val rdd5 = sc.parallelize(List("12","23","","345"),2)

rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是:”11”,原因如下:

math.min("".length, "12".length ) 的结果是:0 , math.min("0".length, "23".length ) 的结果是:1  

math.min("".length, "".length) 的结果是:0 , math.min("0".length, "345".length) 的结果是:1  

注意:值"0".toString的长度为0,"0".toString.length的长度为1

欢迎大佬们扫下面二维码关注我个人微信公众号(Java大数据架构师成长之路)

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值