Milkcoffeezhu的博客

小白学大数据

wordcount执行流程的深度剖析

一、首先spark程序会去读取数据(以本地数据为例)

    spark程序在提交之后首先会去读取数据读取数据的代码如下:

 val lines = sc.textFile("D:\\QQPCmgr\\Desktop\\spark.txt", 3)

    首先会把本地文件中的数据读取到spark集群中,这些数据会形成三个分区

二、调用flatmap把每一行切割为一个一个的单词

 val words = lines.flatMap(line=>line.split(" "))

三、调用map把切割后的单词映射为(word,1)的格式便于在后面统计

val pairs = words.map(word=>(word,1))

四、调用reduceByKey统计每个单词出现的次数

 val wordCounts = pairs.reduceByKey(_+_)

五、说了这么多心中有数还不如心中有图:

    




阅读更多
个人分类: Spark学习系列
上一篇Spark基本工作原理与RDD
下一篇Spark架构原理
想对作者说点什么? 我来说一句

spark的wordcount执行流程

Smart_cxr Smart_cxr

2018-05-24 17:19:32

阅读数:48

Web安全深度剖析

2015年08月31日 54.16MB 下载

libevent源码深度剖析pdf

2010年01月16日 571KB 下载

《Yii框架深度剖析》配套代码

2018年02月19日 94.57MB 下载

没有更多推荐了,返回首页

关闭
关闭