Spark 运行环境
local 模式
- 在Day2中我们下载了spark-hadoop包,在本次我们将继续使用这个压缩包,首先解压到当前位置,更改文件夹名称为sparkLocal,进入该文件夹,输入下面指令可以开启spark-shell
bin/spark-shell
我们可以在解压后的data文件夹内创建word.txt 文件,
cd data
vi word.txt
# 输入你想放入word.txt的内容 然后按esc,输入:wq, 按下Enter。
然后再命令行工具下执行如下代码。
scala> sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((scala,1), (hello,3), (world,2))
在运行scala代码的时候,因为collect()会连接到本地,所以mac需要在系统偏好设置的共享里面将远程登陆勾选上。
你可以通过 http://localhost:8080/ 来访问你的WebUI监控主页。
之后一般是使用local模式提交应用,可以使用本地的应用SparkPI来测试是否可以成功提交作业, 需要注意的是examples后面的版本号,找到对应的examples文件进行修改。
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.1.1.jar \
10