8 安装Spark
8.1 说明
Pre-build with user-provided Hadoop属于“Hadoop free”版,这样,下载到的Spark,可应用到任意Hadoop 版本。
下载地址:https://spark.apache.org/downloads.html
#建议使用mget,wget速度很慢
mget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。
8.2 下载及配置
8.2.1 命令顺序
sudo tar -zxf ~/Downloads/spark-3.5.1-bin-without-hadoop.tgz -C /usr/local
cd /usr/local
sudo mv spark-3.5.1-bin-without-hadoop spark
sudo chown -R hadoop:hadoop spark # 此处的 hadoop 为你的用户名
8.2.2 修改Spark的配置文件spark-env.sh
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行下面添加以下配置信息
export SPARK_MASTER_PORT=7077
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=localhost
export SPARK_LOCAL_IP=localhost
注:
上面的localhost可以改成具体的ip地址,就可以远程访问了。
伪分布式中可能需要的配置:
spark-defaults.conf.template 复制到 spark-defaults.conf,然后修改
spark.driver.bindAddress localhost
spark.ui.bindAddress localhost
spark.master spark://localhost:7077
注:
前两行须自己添加,第三行去掉注释即可
上面的localhost可以改成具体的ip地址,比如192.168.48.131,这样就可以通过ip地址访问。
启动spark:
./sbin/start-all.sh
8.2.3 问题分析:
如果8080访问不了,则需要修改conf/start-master.sh文件,把8080端口进行修改
所有的webui访问都可通过localhost访问,也可使用ip地址访问。