Spark的安装及使用
1、官网下载安装Scala:scala-2.12.8.tgz
https://www.scala-lang.org/download/
tar -zxvf scala-2.12.8.tgz -C /usr/local
mv scala-2.12.8 scala
测试:scala -version
启动:scala
2、官网下载安装Spark:spark-2.4.2-bin-hadoop2.7.tgz
https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz
解压、重命名
启动spark
①、先启动hadoop 环境
start-all.sh
②、启动spark环境
进入到SPARK_HOME/sbin下运行start-all.sh
/opt/module/spark/sbin/start-all.sh
查看spark的web控制页面:http://ip地址:8080/
显示spark的端口是7070
Spark-shell
此模式用于interactive programming,先进入bin文件夹后运行:spark-shell
Spark应用程序:WordCount
参考博文:http://dblab.xmu.edu.cn/blog/986-2/
1、执行如下命令新建目录:
cd /usr/local/spark
mkdir mycode
cd mycode
mkdir wordcount
cd wordcount
2、在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt,命令如下:
vim word.txt
输入需要词频统计语句,退出
3、执行以下命令进入spark-shell
cd /usr/local/spark
./bin/spark-shell
....//这里省略启动过程显示的一大堆信息
scala>
4、加载本地文件
在第二个终端窗口下操作,用下面命令到达“/usr/local/spark/mycode/wordcount”目录,查看一下上面已经建好的word.txt的内容:
cd /us