spark standalone模式

没￥开会员

已于 2023-10-30 15:40:29 修改

阅读量65

点赞数

分类专栏： spark 文章标签： spark 大数据分布式

于 2023-10-30 15:33:26 首次发布

本文链接：https://blog.csdn.net/qq_44779906/article/details/134120511

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文详细介绍了如何配置Spark集群，包括设置workers节点、环境变量如JAVA_HOME和Hadoop配置，以及HDFS目录管理。还涉及了Spark事件日志和历史服务器的启动。最后，展示了如何分发Spark到其他机器和启动/停止服务的方法。

摘要由CSDN通过智能技术生成

核心：spark集群加hdfs

配置：

# spark/conf/workers

        # spark/conf/spark-env.sh

        # spark/conf/spark-defaults.conf

        # spark/conf/log4j.properties

        # hdfs

# spark/conf/workers

node1.itcast.cn
node2.itcast.cn
node3.itcast.cn

# spark/conf/spark-env.sh

JAVA_HOME=/export/server/jdk1.8.0_241/
HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/
YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/

export SPARK_MASTER_HOST=node1
export SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

# hdfs

hdfs dfs -mkdir -p /sparklog/

# spark/conf/spark-defaults.conf

spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://node1:8020/sparklog/
spark.eventLog.compress true

# spark/conf/log4j.properties

log4j.rootCategory=info 改为 log4j.rootCategory=warn

# 分发到其他机器

scp -r spark-3.1.2-bin-hadoop3.2/ root@node2:$PWD
scp -r spark-3.1.2-bin-hadoop3.2/ root@node3:$PWD

# 启动与停止
# 方式1
/export/server/spark/sbin/start-all.sh
/export/server/spark/sbin/stop-all.sh
# 方式2
/export/server/spark/sbin/start-master.sh
/export/server/spark/sbin/stop-master.sh
/export/server/spark/sbin/start-slaves.sh
/export/server/spark/sbin/stop-slaves.sh

# 启动日志（18080）
/export/server/spark/sbin/start-history-server.sh