附录一:导入Spark环境虚拟机
1、拷贝三台机器
2、导入三台机器
3、启动三台机器
-
选择 移动该虚拟机 ,否则需要重新配置静态IP等
-
第二台、第三台启动会遇到这个报错,选择浏览
-
浏览中,选择第一台机器的vmx文件即可
4、Windows配置映射
192.168.88.100 node1.itcast.cn node1
192.168.88.101 node2.itcast.cn node2
192.168.88.102 node3.itcast.cn node3
附录二:本地模式安装
【以第一台机器为例】
-
解压安装
tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/ ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark
- 常见的目录
- bin:客户端命令
- sbin:集群管理命令,服务的启动和关闭
- conf:配置文件目录
- jars:存放jar包的目录
- 常见的目录
-
修改配置
cd /export/server/spark/conf mv spark-env.sh.template spark-env.sh vim spark-env.sh
#22行-23行 JAVA_HOME=/export/server/jdk SCALA_HOME=/export/server/scala #30行 HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
附录三:Standalone集群模式
1、恢复三台机器快照
-
架构:分布式主从架构
- 主:Master
- 第一台机器
- 从:Worker
- 三台机器
- 主:Master
-
将三台机器快照恢复到《4、分布式环境》
-
解压安装
tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/ ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark
2、修改进程配置
-
spark-env.sh
cd /export/server/spark/conf/ mv spark-env.sh.template spark-env.sh vim spark-env.sh
#22行-23行 JAVA_HOME=/export/server/jdk SCALA_HOME=/export/server/scala #30行 HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop #60行 #指定Master启动的地址 SPARK_MASTER_HOST=node1 #指定Master的通信端口 SPARK_MASTER_PORT=7077 #Master的Web端口 SPARK_MASTER_WEBUI_PORT=8080 #指定每个Work能使用这台机器的多少核CPU SPARK_WORKER_CORES=1 #指定每个Work能使用这台机器的多少内存 SPARK_WORKER_MEMORY=1g #Work的端口 SPARK_WORKER_PORT=7078 #Work的web端口 SPARK_WORKER_WEBUI_PORT=8081 #配置Spark程序日志的记录位置 SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"
- MapReduce:JobHistoryServer
- 用于记录之前所运行的所有MapReduce的程序
- Spark:HistoryServer
- 用于记录Spark中运行的所有程序,会将所有程序运行的日志存储在HDFS上
- MapReduce:JobHistoryServer
-
spark-defaults.conf:类似于我们以前讲的site文件
cd /export/server/spark/conf/ hdfs dfs -mkdir -p /spark/eventLogs/ mv spark-defaults.conf.template spark-defaults.conf vim spark-defaults.conf
#28行 #启用日志存储 spark.eventLog.enabled true #日志存储位置 spark.eventLog.dir hdfs://node1:8020/spark/eventLogs/ #启用压缩存储日志 spark.eventLog.compress true
3、修改Worker配置
cd /export/server/spark/conf/
mv slaves.template slaves
vim slaves
node1
node2
node3