1. 下载安装Scala
将Windows下已经下载好的安装包,传给虚拟机上的节点 的/home
查看虚拟机
解压并放到制定目录
tar -xf scala-2.13.3.tgz
2. 配置scala环境变量
vi /etc/profile
添加
export SCALA_HOME=/home/scala-2.13.3
export PATH=$SCALA_HOME/bin:$PATH
3. 下载spark
到www.apache.org找到spark入口并下载
目前最新:spark-3.0.1-bin-hadoop3.2.tgz
下载页:https://archive.apache.org/dist/spark/spark-3.0.1/
文件下载:https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz
4. 使用putty上传至hadoop节点
解压并放至指定目录
tar -xf spark-3.0.1-bin-hadoop3.2.tgz
5. 修改spark环境变量
vi /etc/profile
添加
export SPARK_HOME=/home/spark-3.0.1-bin-hadoop3.2/
export PATH=$SPARK_HOME/bin:$PATH
配置生效
source /etc/profile
6. spark配置,在spark根目录的conf目录下,将配置模板文件复制成配置文件
cp spark-env.sh.template spark-env.sh
注:IP地址和路径请自行替换为真实值
9.启动集群
(2)(若需使用YARN模式)
启动Hadoop HDFS和YARN
11.进入Shell
在主节点上输入命令:spark-shell ……
当看见命令提示符:scala>即正确进入spark shell
Spark提交模式:
(1)Local模式(缺省为local[*])
无需Standalone或Yarn集群支撑,可跳过步骤7~10
#spark-shell
#spark-shell --master local[*]
成功启动后提示:
Spark context avaiable as 'sc'(master = local[*], app id = ……)
#spark-shell --master local
成功启动后提示:
Spark context avaiable as 'sc'(master = local, app id = ……)
启动之后
(3)YARN模式(缺省为yarn-client)
无需Standalone集群支撑,可跳过步骤7、8、10
spark-shell --master yarn
spark-shell --master yarn --deploy-mode client
spark-shell --master yarn --deploy-mode cluster (spark-shell不支持cluster模式)
成功启动后提示:
Spark context avaiable as 'sc'(master = yarn, app id = ……)
Spark Job信息Web页面(运行Shell或执行作业时可访问):http://192.168.137.10:4040
YARN模式中,Spark Job会在YARN中形成Job,Web页面:http://192.168.137.10:8088
12.执行Spark程序
编写Spark程序并编译成jar包
以命令spark-submit提交jar包
提交Spark程序时,采用step13中同样的master和deploy-mode参数(支持cluster模式),以指示Spark以指定的模式执行程序
上传一个英文文本文件至HDFS
查看HDFS下的目录:hadoop fs -ls / //注意ls 和 / 之间有空格
在Hadoop上创建一个文件夹,然后上传自己写的一个txt文件
这是可以在 50070端口查看到具体信息的
比如我们这里的文件
点进去
下载之后打开:
在SparkShell中输入命令执行命令
读取文件并统计行数:
sc.textFile("hdfs://node1:9000/articles/").count