Experiment in Spark

最新推荐文章于 2019-10-23 15:05:17 发布

Robin_just

最新推荐文章于 2019-10-23 15:05:17 发布

阅读量243

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/shaguabufadai/article/details/71159954

版权

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Wordcount by Spark

启动Spark

#Start Spark(shell)
pyspark --master yarn-client --num-executors 10

这条命令启动了py-spark的这样一个终端，它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言，它的这个语言使用Python来编写的，所以可以在这里面运行Python的一些代码。那么在这里，我们指定了它的master是一个yarn-client；然后我们指定了它的executor的数量是10。

Generate source RDDs

Use spark context(sc)
textFile = sc.textFile(“/tmp/bigdata/2017/english_novel/*”)

启动了之后，我们就可以运行这个spark程序了。我们第一步要运行是需要创建一个spark的context，这在spark的编程方式和命令行方式，它是一致的。只不过在命令行方式，这个context会帮我们直接创建起来。通过context，我们可以把一个分布式文件系统的这样一个文件，或者本地的文件给转成第一个RDD，在这里面就是一个text file这样一个RDD。

Transformations

>>>wordsrdd = textFile.flatMap(lambda s: s.split())
>>>maprdd = wordsrdd.map(lambda s: (s,1))
>>>reducerdd = maprdd.reduceByKey(add)

3个>符号是shell提示符。
在这里面我们可以对它进行flat map。我们可以进行flat map之后来继续做map。然后我们还可以进行reduceByKey等等这样的一系列的操作。

Actions

reducerdd.take(10)
reducerdd.filter(lambda (k,v): k == ‘word’)
reducerdd.saveAsTextFile(‘flie:/home/robin/output’)

最后我们可以进行action。
比如说我们要看前10个元素是什么，然后我们可以去对里面的一些元素进行查找，通过一个叫做filter的操作，然后我们可以把它输出到文件，把它保存，结果保存出来。

这里写图片描述

Robin_just

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Experiment in Spark

Wordcount by Spark启动Spark#Start Spark(shell)pyspark --master yarn-client --num-executors 10 这条命令启动了py-spark的这样一个终端，它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言，它的这个语言使用Python来编写的，所以可以在这里面运行Python的一些代码
复制链接

扫一扫