Spark集群搭建

Spark集群搭建

Standalone模式
  • 1、上传解压

    tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft
    mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5
    
  • 2、修改配置文件

    # 重命名文件
    cp spark-env.sh.template spark-env.sh
    cp slaves.template slaves
    

    增加配置vim spark-env.sh

    master相当于RM worker相当于NM

    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    export SPARK_WORKER_CORES=2
    export SPARK_WORKER_INSTANCES=1
    export SPARK_WORKER_MEMORY=2g
    export JAVA_HOME=/usr/local/soft/jdk1.8.0_171
    

    增加从节点配置vim slaves

    以node1、node2作为从节点

    node1
    node2
    
  • 3、复制到其它节点

    cd /usr/local/soft/
    scp -r spark-2.4.5 node1:`pwd`
    scp -r spark-2.4.5 node2:`pwd`
    
  • 4、配置环境变量

  • 5、在主节点执行启动命令

    注意:start-all.sh 与Hadoop的sbin目录中的启动命令有冲突

    cd /usr/local/soft/spark-2.4.5/
    ./sbin/start-all.sh	
    
  • 6、访问Spark Web UI

    http://master:8080/
    
  • 7、测试及使用

    切换目录cd /usr/local/soft/spark-2.4.5/examples/jars

    standalone client模式 :日志在本地输出,一般用于上线前测试

    • 提交自带的SparkPi任务

      spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
      

    standalone cluster模式:上线使用,不会在本地打印日志

    • 提交自带的SparkPi任务

      spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512M --total-executor-cores 1 --deploy-mode cluster spark-examples_2.11-2.4.5.jar 100
      
  • 8、其他运行方式

    • spark-shell spark 提供的一个交互式的命令行,可以直接写代码

      spark-shell master spark://master:7077
      
On Yarn模式

在公司一般不适用standalone模式

因为公司一般已经有yarn,不需要搞两个资源管理框架

Spark整合yarn只需要在一个节点整合,可以删除node1和node2中所有的Spark文件

  • 1、停止Spark Standalone模式集群

    # 切换目录
    cd /usr/local/soft/spark-2.4.5/
    # 停止集群
    ./sbin/stop-all.sh
    
  • 2、增加hadoop 配置文件地址

    vim spark-env.sh
    # 增加HADOOP_CONF_DIR
    export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop
    
  • 3、关闭Yarn

    stop-yarn.sh
    
  • 4、修改Yarn配置

    cd /usr/local/soft/hadoop-2.7.6/etc/hadoop/
    vim yarn-site.xml
    
    # 加入如下配置
        <property>
            <name>yarn.nodemanager.pmem-check-enabled</name>
            <value>false</value>
        </property>
    
        <property>
            <name>yarn.nodemanager.vmem-check-enabled</name>
            <value>false</value>
        </property>
    
  • 5、同步到其他节点

    scp -r yarn-site.xml node1:`pwd`
    scp -r yarn-site.xml node2:`pwd`
    
  • 6、启动Yarn

    start-yarn.sh
    
  • 7、测试及使用

    切换目录cd /usr/local/soft/spark-2.4.5/examples/jars

    Spark on Yarn Client模式:日志在本地输出,一班用于上线前测试

    • 提交自带的SparkPi任务

      spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100
      

    Spark on Yarn Cluster模式:上线使用,不会在本地打印日志

    • 提交自带的SparkPi任务

      spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100
      
    • 获取yarn程序执行日志 执行成功之后才能获取到

      yarn logs -applicationId application_1652086375126_0002
      
  • 8、开启Spark On Yarn的WEB UI

    修改配置文件

    # 切换目录
    cd /usr/local/soft/spark-2.4.5/conf
    
    # 去除后缀
    cp spark-defaults.conf.template spark-defaults.conf
    
    # 修改spark-defaults.conf
    vim spark-defaults.conf
    
    # 加入以下配置
    spark.eventLog.enabled  true
    spark.eventLog.dir      hdfs://master:9000/user/spark/applicationHistory
    spark.yarn.historyServer.address        master:18080
    spark.eventLog.compress true
    spark.history.fs.logDirectory   hdfs://master:9000/user/spark/applicationHistory
    spark.history.retainedApplications      15
    

    创建HDFS目录用于存储Spark History日志

    hdfs dfs -mkdir -p /user/spark/applicationHistory
    

    启动Spark History Server

    cd /usr/local/soft/spark-2.4.5/
    ./sbin/start-history-server.sh
    
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

没钳蟹蟹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值