1.下载spark的地址
http://spark.apache.org/downloads.html
2.把下载好的压缩包拖拽到虚拟机的桌面
3.把压缩包移动到/opt目录下
mv spark-2.3.1-bin-hadoop2.7.tgz /opt
4. 解压
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
5 .目录切换到 /opt/spark-2.3.1-bin-hadoop2.7.tgz /conf 文件夹下边
6.Spark的配置文件都在这个文件夹里边 在修改配置文件之前,查看文件夹权限
修改用户组
修改文件夹权限
之后开始修改配置文件 ,进入到conf 文件夹输入
cd spark-env.sh.template spark-env.sh
复制 spark-env.sh.template 文件夹并改名为 spark-env.sh
编辑spark-env.sh 文件 添加以下内容:
配置完成后 进入sbin目录并查看
输入./start-all.sh启动spark进程
之后输入jps 查看进程
Master和worker是spark的进程 剩下的几个是hadoop的进程
所有只要有Master和Worker这两个进程 就说明Spark已经被启动了
之后进入spark的bin目录查看
之后输入 ./pyspark 命令 出现此画面说明正常启动