关闭

Learning Spark 笔记(二) -- aggregate初值初探

113人阅读 评论(0) 收藏 举报
分类:

3 . fold和aggregate都需要初值,且每个初值应用到每个分区。例子如下:

    val input = sc.parallelize(List(1,2,3,4,5,6),3)
    val result = input.aggregate((0, 0))(                              
        (acc, value) => (acc._1 + value, acc._2 + 1),
        (acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2))

最终的结果是21/6;
但是如果将初值设为(0,1),那么最终的结果将是21/10,分母是10的原因是产生了4个累加器。将上面改变为

    val input = sc.parallelize(List(1,2,3,4,5,6),5)
    val result = input.aggregate((0, 1))(                              
        (acc, value) => {
            println("seq: "+acc,value)
            (acc._1 + value, acc._2 + 1)},
        (acc1, acc2) => {
            println("com: "+acc1+" "+acc2)
            (acc1._1 + acc2._1, acc1._2 + acc2._2)
        })

输出结果如下:

(seq: (0,1),5)
(seq: (0,1),3)
(seq: (0,1),1)
(seq: (3,2),4)
(seq: (5,2),6)
(seq: (1,2),2)
com: (0,1) (7,3)
com: (7,4) (11,3)
com: (18,7) (3,3)
result: (Int, Int) = (21,10)

由上面的结果可以看到一共有4个(0,1)输出,其中有3个是第一个函数在各个分区中产生的,最后1个则是第2个函数聚集的时候产生的,在此猜想:只要是产生一个累加器或者新的分区,最开始设置的初值就会产生影响。为了验证,将分区数设为5,则预想会有6个累加器产生,最后的结果应该是(21,12)。经过实验,最后的结果也正是如此。

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:15642次
    • 积分:415
    • 等级:
    • 排名:千里之外
    • 原创:23篇
    • 转载:4篇
    • 译文:3篇
    • 评论:7条
    最新评论