spark附录:安装配置

本文档详细介绍了如何导入Spark环境虚拟机,包括拷贝、导入、启动虚拟机及Windows配置映射。此外,还提供了本地模式安装步骤,强调了配置修改与集群模式设置,特别是Standalone集群的搭建,包括恢复快照、修改进程与Worker配置、日志级别调整以及分发操作。最后,提到了Spark的Maven依赖和如何在IDEA中连接远程文件系统。
摘要由CSDN通过智能技术生成

附录一:导入Spark环境虚拟机

1、拷贝三台机器

在这里插入图片描述

2、导入三台机器

在这里插入图片描述

3、启动三台机器

  • 选择 移动该虚拟机 ,否则需要重新配置静态IP等

  • 第二台、第三台启动会遇到这个报错,选择浏览
    在这里插入图片描述

  • 浏览中,选择第一台机器的vmx文件即可
    在这里插入图片描述

4、Windows配置映射

在这里插入图片描述

192.168.88.100   node1.itcast.cn   node1
192.168.88.101   node2.itcast.cn   node2
192.168.88.102   node3.itcast.cn   node3

附录二:本地模式安装

【以第一台机器为例】

  • 解压安装

    tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/
    ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark
    
    • 常见的目录
      • bin:客户端命令
      • sbin:集群管理命令,服务的启动和关闭
      • conf:配置文件目录
      • jars:存放jar包的目录
  • 修改配置

    cd /export/server/spark/conf
    mv spark-env.sh.template spark-env.sh
    vim spark-env.sh
    
    #22行-23行
    JAVA_HOME=/export/server/jdk
    SCALA_HOME=/export/server/scala
    #30行
    HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
    

附录三:Standalone集群模式

1、恢复三台机器快照

  • 架构:分布式主从架构

    • 主:Master
      • 第一台机器
    • 从:Worker
      • 三台机器
  • 将三台机器快照恢复到《4、分布式环境》

  • 解压安装

    tar -zxvf /export/software/spark-2.4.5-bin-cdh5.16.2-2.11.tgz -C /export/server/
    ln -s /export/server/spark-2.4.5-bin-cdh5.16.2-2.11 /export/server/spark
    

2、修改进程配置

  • spark-env.sh

    cd /export/server/spark/conf/
    mv spark-env.sh.template spark-env.sh
    vim spark-env.sh
    
    #22行-23行
    JAVA_HOME=/export/server/jdk
    SCALA_HOME=/export/server/scala
    
    #30行
    HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
    #60行
    #指定Master启动的地址
    SPARK_MASTER_HOST=node1
    #指定Master的通信端口
    SPARK_MASTER_PORT=7077
    #Master的Web端口
    SPARK_MASTER_WEBUI_PORT=8080
    #指定每个Work能使用这台机器的多少核CPU
    SPARK_WORKER_CORES=1
    #指定每个Work能使用这台机器的多少内存
    SPARK_WORKER_MEMORY=1g
    #Work的端口
    SPARK_WORKER_PORT=7078
    #Work的web端口
    SPARK_WORKER_WEBUI_PORT=8081
    #配置Spark程序日志的记录位置
    SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"
    
    • MapReduce:JobHistoryServer
      • 用于记录之前所运行的所有MapReduce的程序
    • Spark:HistoryServer
      • 用于记录Spark中运行的所有程序,会将所有程序运行的日志存储在HDFS上
  • spark-defaults.conf:类似于我们以前讲的site文件

    cd /export/server/spark/conf/
    hdfs dfs -mkdir -p /spark/eventLogs/
    mv spark-defaults.conf.template spark-defaults.conf 
    vim spark-defaults.conf
    
    #28行
    #启用日志存储
    spark.eventLog.enabled true
    #日志存储位置
    spark.eventLog.dir hdfs://node1:8020/spark/eventLogs/
    #启用压缩存储日志
    spark.eventLog.compress true
    

3、修改Worker配置

cd /export/server/spark/conf/
mv slaves.template slaves 
vim slaves
node1
node2
node3

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值