spark aggregateByKey函数执行结果异常问题

最新推荐文章于 2023-08-16 15:52:42 发布

qq_25201843

最新推荐文章于 2023-08-16 15:52:42 发布

阅读量420

点赞数

分类专栏： spark 文章标签： spark aggregateByKey

本文链接：https://blog.csdn.net/qq_25201843/article/details/51957602

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

执行函数异常代码

</pre><pre name="code" class="java"> val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local[1]")
    val sc = new SparkContext(conf)
    val data = sc.parallelize(List((1, 3), (1, 200), (1, 100), (2, 3), (2, 4), (2, 5)))
    def seqOp(a: Int, b: Int): Int = {
      println("seq: " + a + "\t " + b)
      math.max(a, b)
    }
    def combineOp(a: Int, b: Int): Int = {
      println("comb: " + a + "\t " + b)
      a + b
    }
    //    val localIterator=data.aggregateByKey(0)((_,_)._2, _+_).collect();
    val localIterator = data.aggregateByKey(4)(seqOp, combineOp).collect();
    for (i <- localIterator) println(i)
    sc.stop()

//这样的代码执行完后的结果不正确，原因是数据分片默认太少，将代码的第三行改为：

val data = sc.parallelize(List((1, 3), (1, 200), (1, 100), (2, 3), (2, 4), (2, 5)), 6)

即可