黑猴子的家：Spark Shell

最新推荐文章于 2022-03-02 08:36:06 发布

原创最新推荐文章于 2022-03-02 08:36:06 发布 · 221 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍如何使用Spark Shell进行交互式编程，包括启动Spark Shell并指定master地址、编写WordCount程序并运行，以及如何在HDFS上读取数据、执行MapReduce操作并将结果保存回HDFS。

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序

1、启动Spark shell

[victor@node1 spark]$ bin/spark-shell \
--master spark://node1:7077 \
--executor-memory 2G \
--total-executor-cores 2

尖叫提示：如果启动 spark shell 时没有指定 master 地址，但是也可以正常启动 spark shell 和执行 spark shell 中的程序，其实是启动了 spark 的 local 模式，该模式仅在本机启动一个进程，没有与集群建立联系

2、编写WordCount程序

（1）启动hdfs

[victor@node1 hadoop-2.8.2]$ sbin/start-dfs.sh

（2）上传文件

[victor@node1 hadoop-2.8.2]$ bin/hdfs dfs -put ../spark/RELEASE /

hdfs://node1:9000/RELEASE

（3）wordcount输出到HDFS上

scala> sc.textFile("hdfs://node1:9000/RELEASE").flatMap( \
_.split(" ")).map((_,1)).reduceByKey( \
_+_).saveAsTextFile("hdfs://node1:9000/out")

尖叫提示：Spark Shell 中已经默认将 SparkContext 类初始化为对象 sc。用户代码如果需要用到，则直接应用 sc 即可

（4）查看WordCount在HDFS上的输出

[victor@node1 hadoop]$ bin/hadoop fs -cat /out/p*

（5）WordCount控制台打印

scala> sc.textFile("hdfs://node1:9000/RELEASE").flatMap( \
_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res5: Array[(String, Int)] = Array(
(-Psparkr,1), (Build,1), (built,1), 
(-Phive-thriftserver,1), (-Pmesos,1), (2.7.3,1),
 (-Phadoop-2.7,1), (2.2.0,1), (Spark,1), 
(-Pyarn,1), (-DzincPort=3036,1), (flags:,1), 
(for,1), (-Phive,1), (Hadoop,1))

3、解析

sc是SparkContext对象，该对象是提交spark程序的入口
textFile(hdfs://node1:9000/RELEASE)是hdfs中读取数据
flatMap(_.split(" "))先map在压平
map((_,1))将单词和1构成元组
reduceByKey(_+_)按照key进行reduce，并将value累加
saveAsTextFile("hdfs://node1:9000/out")将结果写入到hdfs中