wordcount执行流程的深度剖析

6人阅读 评论(0) 收藏 举报
分类:

一、首先spark程序会去读取数据(以本地数据为例)

    spark程序在提交之后首先会去读取数据读取数据的代码如下:

 val lines = sc.textFile("D:\\QQPCmgr\\Desktop\\spark.txt", 3)

    首先会把本地文件中的数据读取到spark集群中,这些数据会形成三个分区

二、调用flatmap把每一行切割为一个一个的单词

 val words = lines.flatMap(line=>line.split(" "))

三、调用map把切割后的单词映射为(word,1)的格式便于在后面统计

val pairs = words.map(word=>(word,1))

四、调用reduceByKey统计每个单词出现的次数

 val wordCounts = pairs.reduceByKey(_+_)

五、说了这么多心中有数还不如心中有图:

    




查看评论

spark从入门到放弃十一: 内核架构深度剖析之执行流程

文章地址:http://www.haha174.top/article/details/251403 前10篇主要介绍到了spark action,算子等一些简答的demo 操作。那么那些操作是怎么...
  • u012957549
  • u012957549
  • 2018-03-18 13:16:26
  • 37

spark快速入门与WordCount程序机制深度解析 spark研习第二季

2、spark wordCount程序深度剖析 标签: spark 一、Eclipse(scala IDE)开发local和cluster (一). 配置开发环境 要在本地安装好java和...
  • refuil
  • refuil
  • 2016-07-22 09:28:12
  • 2350

spark程序解析——WordCount

本篇解析spark的词频统计源程序代码。 java源码如下: package sparkTest; import java.util.Arrays; import org.apache...
  • qq_23617681
  • qq_23617681
  • 2016-05-14 17:18:46
  • 1048

wordcount运行过程

1.分布式的运算程序往往分成至少两个阶段 2.第一个阶段的task并发实例各司其职各自为政互不相干,完全并行 (map阶段 maptask) 3.第二个阶段的taks并发实例互不相干,但是他们的数...
  • oracle8090
  • oracle8090
  • 2016-09-08 20:41:15
  • 300

WordCount程序运行流程分析

在job.submit()时,客户端会去查看输入文件的规模,并根据输入的文件规模决定使用多少个MapperTask来运行Job。同时还会进行任务的规划,划分具体哪个MapTask处理哪个数据文件的具体...
  • mrbcy
  • mrbcy
  • 2017-03-13 15:51:43
  • 476

《web安全深度剖析》笔记三

Oracle获取敏感信息: 当前用户权限:select * from session roles 当前数据库版本:select banner from sys.v.$versionwhere ro...
  • yalecaltech
  • yalecaltech
  • 2017-04-28 18:01:53
  • 800

Web安全深度剖析

  • 2015年08月31日 22:49
  • 54.16MB
  • 下载

AngularJS深度剖析与最佳实践.

  • 2016年07月07日 14:03
  • 53.39MB
  • 下载

《Yii框架深度剖析》配套代码

  • 2018年02月19日 14:12
  • 94.57MB
  • 下载

《Web安全深度剖析》笔记(一)

第一章。Web安全简介 C段渗透:攻击者通过渗透同一网段内的一台主机对目标主机进行ARP等手段的渗透   第二章深入HTTP请求流求 HTTP请求方法 GET请求时,、若请求资源为动态文本(...
  • yalecaltech
  • yalecaltech
  • 2017-04-07 23:49:35
  • 1101
    个人资料
    等级:
    访问量: 120
    积分: 120
    排名: 117万+
    文章分类
    文章存档