Experiment in Spark

Wordcount by Spark

启动Spark

#Start Spark(shell)
pyspark --master yarn-client --num-executors 10 

这条命令启动了py-spark的这样一个终端,它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言,它的这个语言使用Python来编写的,所以可以在这里面运行Python的一些代码。那么在这里,我们指定了它的master是一个yarn-client;然后我们指定了它的executor的数量是10。

Generate source RDDs

Use spark context(sc)
textFile = sc.textFile(“/tmp/bigdata/2017/english_novel/*”)

启动了之后,我们就可以运行这个spark程序了。我们第一步要运行是需要创建一个spark的context,这在spark的编程方式和命令行方式,它是一致的。只不过在命令行方式,这个context会帮我们直接创建起来。通过context,我们可以把一个分布式文件系统的这样一个文件,或者本地的文件给转成第一个RDD,在这里面就是一个text file这样一个RDD。

Transformations

>>>wordsrdd = textFile.flatMap(lambda s: s.split())
>>>maprdd = wordsrdd.map(lambda s: (s,1))
>>>reducerdd = maprdd.reduceByKey(add)

3个>符号是shell提示符。
在这里面我们可以对它进行flat map。我们可以进行flat map之后来继续做map。然后我们还可以进行reduceByKey等等这样的一系列的操作。

Actions

reducerdd.take(10)
reducerdd.filter(lambda (k,v): k == ‘word’)
reducerdd.saveAsTextFile(‘flie:/home/robin/output’)

最后我们可以进行action。
比如说我们要看前10个元素是什么,然后我们可以去对里面的一些元素进行查找,通过一个叫做filter的操作,然后我们可以把它输出到文件,把它保存,结果保存出来。

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值