Spark——countByKey()与reduceByKey()

原创 2018年04月17日 19:44:23

1.transformation & action

    transformation :是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD或者从RDD生成一个新的RDD

    action : 是得到一个值,或者一个结果(直接将RDDcache到内存中)

    所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。

2.countByKey()与reduceByKey()

    (1)countByKey()属于action,而reduceByKey()属于transformation 

    (2)countByKey()得到的类型为map(是在driver端的最终结果),而reduceByKey()得到的类型是RDD

    (3)data.countByKey()相当于data.reduceByKey(_+_).collectAsMap()

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/faan0966/article/details/79977461

Spark算子[07]:reduce,reduceByKey,count,countByKey

算子 reduce,reduceByKey,count,countByKey,aggregateByKey 可分为两类:action操作:reduce,count,countByKey transf...
  • leen0304
  • leen0304
  • 2017-12-08 15:46:57
  • 255

pair RDD groupByKey countByKey countByValue aggregateByKey reduceByKey 测试

val d = sc.makeRDD(Array(1,2,3,4,5,1,3,5)) val dd = d.map(x=>(x,1)) //构造pair RDD, dd:RDD[(Int,Int)]...
  • power0405hf
  • power0405hf
  • 2015-12-14 19:42:44
  • 7272

spark countByKey用法详解

统计每个key对应的value个数,需要注意的是rdd类型是pairRdd,即键值对的形式的rdd,详细代码如下: private static void myCountByKey(){     ...
  • fjr_huoniao
  • fjr_huoniao
  • 2016-05-15 15:37:58
  • 3511

groupByKey 和reduceByKey 的区别:

他们都是要经过shuffle的,groupByKey在方法shuffle之间不会合并原样进行shuffle,。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传...
  • ZMC921
  • ZMC921
  • 2017-07-14 10:53:28
  • 870

spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap

countByKeydef countByKey(): Map[K, Long] 以RDD{(1, 2),(2,4),(2,5), (3, 4),(3,5), (3, 6)}为例 rdd.coun...
  • T1DMzks
  • T1DMzks
  • 2017-04-26 22:11:20
  • 1391

深入理解groupByKey、reduceByKey

测试源码 下面来看看groupByKey和reduceByKey的区别: val conf = new SparkConf().setAppName("GroupAndReduce").s...
  • wisgood
  • wisgood
  • 2016-05-16 11:21:19
  • 3736

Spark API 详解/大白话解释 之 reduce、reduceByKey

reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传...
  • guotong1988
  • guotong1988
  • 2016-01-21 15:42:25
  • 27207

Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy

countByKey def countByKey(): Map[K, Long] countByKey用于统计RDD[K,V]中每个K的数量。 scala> var rdd1 = sc.makeRD...
  • u012102306
  • u012102306
  • 2016-07-22 12:13:45
  • 2682

Spark算子reduceByKey深度解析

最近经常使用到reduceByKey这个算子,懵逼的时间占据多数,所以沉下心来翻墙上国外的帖子仔细过了一遍,发现一篇不错的,在此加上个人的理解整体过一遍这个算子,那么我们开始: 国外的大牛一上来给出这...
  • qq_23660243
  • qq_23660243
  • 2016-05-17 13:44:45
  • 23355

spark RDD算子(六)之键值对聚合操作reduceByKey,foldByKey,排序操作sortByKey

spark的聚合操作,reduceByKey, foldByKey的区别以及应用。 排序操作sortByKey
  • T1DMzks
  • T1DMzks
  • 2017-04-22 01:20:05
  • 2909
收藏助手
不良信息举报
您举报文章:Spark——countByKey()与reduceByKey()
举报原因:
原因补充:

(最多只允许输入30个字)