大数据基础之Spark——Spark的安装教程

最新推荐文章于 2024-07-21 20:58:36 发布

Clozzz

最新推荐文章于 2024-07-21 20:58:36 发布

阅读量478

点赞数

分类专栏： Spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/Clozzz/article/details/107545440

版权

Spark 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

注意：在安装spark之前一定要确保自己虚拟机已经安装了jdk，如果没有请看我之前的博客。

1.spark资源（自取）：
https://pan.baidu.com/s/1Kn0-UnZ8AMLiHF4l2YGcLQ
提取码：ao3w
2.将压缩包上传到Linux系统，并进行解压和安装

//解压
tar -zxf spark-2.3.4-bin-hadoop2.6.tgz
//个人习惯将安装的软件放在soft文件夹下，没有就自己新建一个
mv spark-2.3.4-bin-hadoop2.6 /opt/soft/spark234

3.修改配置文件
在 conf下修改

cd /opt/soft/spark234/conf
//拷贝slaves.template和spark-env.sh.template文件
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
//如果搭建集群就在slaves将localhost改成你的两个work节点名，我这里是伪分布式，就没改
//spark-env.sh（添加如下配置）
export SPARK_MASTER_HOST=192.168.56.101        //主节点IP(改自己的主节点IP)
export SPARK_MASTER_PORT=7077         //任务提交端口
export SPARK_WORKER_CORES=2           //每个worker使用2核
export SPARK_WORKER_MEMORY=3g         //每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=8888   //修改spark监视窗口的端口默认8888
export HADOOP_CONF_DIR=/opt/soft/hadoop260/etc/hadoop     //此项为Hadoop配置文件的目录地址，必须配此配置，不然无法在yarn上启动spark
//修改sbin下spark-conf.sh
export JAVA_HOME=/opt/soft/jdk180      //自己虚拟机里的jdk安装地址

4.启动spark
启动spark服务

//由于命令和hadoop启动的命令一样，我这里就没配置spark的环境变量，以防两个软件打架
//进入spark的sbin目录下启动,输入以下命令
./start-all.sh

启动spark shell命令

//进入spark的bin目录下，输入以下命令
./spark-shell --master local[*]          //local启动方式,括号里代表核数，此方法开启shell窗口不需要启动spark服务
./spark-shell --master spark://(master节点的主机名或者IP地址):7077   //standalone启动方式，此启动方式开启shell窗口需提前打开spark服务
./spark-shell --master yarn              //yarn启动方式