spark附录：安装配置

最新推荐文章于 2024-08-12 18:19:22 发布

静(･ิϖ･ิ)っ

最新推荐文章于 2024-08-12 18:19:22 发布

阅读量180

点赞数

文章标签： spark 大数据

本文链接：https://blog.csdn.net/momotouguang/article/details/111664068

版权

本文档详细介绍了如何导入Spark环境虚拟机，包括拷贝、导入、启动虚拟机及Windows配置映射。此外，还提供了本地模式安装步骤，强调了配置修改与集群模式设置，特别是Standalone集群的搭建，包括恢复快照、修改进程与Worker配置、日志级别调整以及分发操作。最后，提到了Spark的Maven依赖和如何在IDEA中连接远程文件系统。

摘要由CSDN通过智能技术生成

附录一：导入Spark环境虚拟机

1、拷贝三台机器

在这里插入图片描述

2、导入三台机器

在这里插入图片描述

3、启动三台机器

选择 移动该虚拟机 ，否则需要重新配置静态IP等
第二台、第三台启动会遇到这个报错，选择浏览
浏览中，选择第一台机器的vmx文件即可

4、Windows配置映射

在这里插入图片描述

192.168.88.100   node1.itcast.cn   node1
192.168.88.101   node2.itcast.cn   node2
192.168.88.102   node3.itcast.cn   node3

附录二：本地模式安装

【以第一台机器为例】

解压安装

tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/
ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark

常见的目录
- bin：客户端命令
- sbin：集群管理命令，服务的启动和关闭
- conf：配置文件目录
- jars：存放jar包的目录

修改配置

cd /export/server/spark/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

#22行-23行
JAVA_HOME=/export/server/jdk
SCALA_HOME=/export/server/scala
#30行
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop

附录三：Standalone集群模式

1、恢复三台机器快照

架构：分布式主从架构
- 主：Master
  - 第一台机器
- 从：Worker
  - 三台机器
将三台机器快照恢复到《4、分布式环境》

解压安装

tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/
ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark

2、修改进程配置

spark-env.sh

cd /export/server/spark/conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

#22行-23行
JAVA_HOME=/export/server/jdk
SCALA_HOME=/export/server/scala

#30行
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
#60行
#指定Master启动的地址
SPARK_MASTER_HOST=node1
#指定Master的通信端口
SPARK_MASTER_PORT=7077
#Master的Web端口
SPARK_MASTER_WEBUI_PORT=8080
#指定每个Work能使用这台机器的多少核CPU
SPARK_WORKER_CORES=1
#指定每个Work能使用这台机器的多少内存
SPARK_WORKER_MEMORY=1g
#Work的端口
SPARK_WORKER_PORT=7078
#Work的web端口
SPARK_WORKER_WEBUI_PORT=8081
#配置Spark程序日志的记录位置
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

MapReduce：JobHistoryServer
- 用于记录之前所运行的所有MapReduce的程序
Spark：HistoryServer
- 用于记录Spark中运行的所有程序，会将所有程序运行的日志存储在HDFS上

spark-defaults.conf：类似于我们以前讲的site文件

cd /export/server/spark/conf/
hdfs dfs -mkdir -p /spark/eventLogs/
mv spark-defaults.conf.template spark-defaults.conf 
vim spark-defaults.conf

#28行
#启用日志存储
spark.eventLog.enabled true
#日志存储位置
spark.eventLog.dir hdfs://node1:8020/spark/eventLogs/
#启用压缩存储日志
spark.eventLog.compress true

3、修改Worker配置

cd /export/server/spark/conf/
mv slaves.template slaves 
vim slaves

node1
node2
node3

最低0.47元/天解锁文章

静(･ิϖ･ิ)っ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
spark附录：安装配置

附录一：导入Spark环境虚拟机1、拷贝三台机器2、导入三台机器3、启动三台机器选择移动该虚拟机，否则需要重新配置静态IP等第二台、第三台启动会遇到这个报错，选择浏览浏览中，选择第一台机器的vmx文件即可4、Windows配置映射192.168.88.100 node1.itcast.cn node1192.168.88.101 node2.itcast.cn node2192.168.88.102 node3.itcast.cn n
复制链接

扫一扫