spark中groupByKey 和reduceByKey 的区别：

最新推荐文章于 2024-07-25 10:39:07 发布

qq_38799155

最新推荐文章于 2024-07-25 10:39:07 发布

阅读量4.5k

点赞数 3

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_38799155/article/details/80178022

版权

他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点。object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = { Logg

摘要由CSDN通过智能技术生成

他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点。

object GroupyKeyAndReduceByKeyDemo {  
  def main(args: Array[String]): Unit = {  
    Logger.getLogger("org").setLevel(Level.WARN)  
    val config = new SparkConf().setAppName("GroupyKeyAndReduceByKeyDemo").setMaster("local")  
    val sc = new SparkContext(config)  
    val arr = Array("val config", "val arr")  
    val socketDS = sc.parallelize(arr).flatMap(_.split(" ")).map((_, 1))  
    //groupByKey 和reduceByKey 的区别：  
    //他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，  
    //reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点  
    socketDS.groupByKey().map(tuple => (tuple._

最低0.47元/天解锁文章

qq_38799155

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
spark中groupByKey 和reduceByKey 的区别：

他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点。object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = { Logg
复制链接

扫一扫

专栏目录