分析 Spark 程序 helloWord 过程中产生多少 RDD ?

目录

  • 问题:分析 Spark 程序 helloWord 过程中产生多少 个RDD ?
  • 答案:六个

问题

待分析spark 程序 wordCount 

val res  =  sc.textFile("hdfs://node-1:9000/wordCount")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node-1:9000/out_wordCount")

 

分析过程

第一步:val read = sc.textFile("hdfs://node-1:9000/wordCount"), 产生两个RDD

该过程产生两个RDD:  HadoopRDD  和  MapPartitionRDD。

在产生HadoopRDD过程中,driver端读取hdfs-env ,并且使用广播变量广播到work端。HadoopRDD(K,V),有两个参数,K 为行偏移量,V为读取值。文件中数据是一行一行的读。

在产生MapPartitionRDD过程中,参数为一个V, 读取一行的值。

 

第二步:val words = read.flatMap(_.split(" ")), 产生一个RDD

该过程产生一个mapPartitionRDD, 将上流获得行数据按照空格切分。

 

第三步:val wordAndOne = words.map((_,1)), 产生一个RDD

该过程产生一个mapPartitionRDD,将上流数据转成元组,例如(hello,1)的形式。

 

第四步:val result = wordsAndOne.reduceByKey(_+_), 产生一个RDD

该过程产生一个shuffleRDD,将上流数据按照key拉取数据,并且将数据合并。

 

第五步:val saveResult = result.saveAsTextFile("hdfs://node-1:9000/out_wordCount"), 产生一个RDD

该过程产生一个mapPartitionRDD,将上流数据按照一个partition 写入一个 file中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值