目录
- 问题:分析 Spark 程序 helloWord 过程中产生多少 个RDD ?
- 答案:六个
问题
待分析spark 程序 wordCount
val res = sc.textFile("hdfs://node-1:9000/wordCount")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node-1:9000/out_wordCount")
分析过程
第一步:val read = sc.textFile("hdfs://node-1:9000/wordCount"), 产生两个RDD
该过程产生两个RDD: HadoopRDD 和 MapPartitionRDD。
在产生HadoopRDD过程中,driver端读取hdfs-env ,并且使用广播变量广播到work端。HadoopRDD(K,V),有两个参数,K 为行偏移量,V为读取值。文件中数据是一行一行的读。
在产生MapPartitionRDD过程中,参数为一个V, 读取一行的值。
第二步:val words = read.flatMap(_.split(" ")), 产生一个RDD
该过程产生一个mapPartitionRDD, 将上流获得行数据按照空格切分。
第三步:val wordAndOne = words.map((_,1)), 产生一个RDD
该过程产生一个mapPartitionRDD,将上流数据转成元组,例如(hello,1)的形式。
第四步:val result = wordsAndOne.reduceByKey(_+_), 产生一个RDD
该过程产生一个shuffleRDD,将上流数据按照key拉取数据,并且将数据合并。
第五步:val saveResult = result.saveAsTextFile("hdfs://node-1:9000/out_wordCount"), 产生一个RDD
该过程产生一个mapPartitionRDD,将上流数据按照一个partition 写入一个 file中。