spark集群模式部署

参考网址:http://spark.apache.org/docs/latest/cluster-overview.html

在2.3版本中,spark支持以下集群管理
    Standalone – 简单易用的集群管理模式。
    Hadoop YARN – 应该是目前spark最常用的集群模式了,yarn是hadoop2中的资源管理器。
    Apache Mesos – 一个通用的集群,可以运行Hadoop MapReduce 和 service applications。
    Kubernetes – 一种用于自动化部署、缩放和管理容器化应用程序的开放源代码系统。
    这里主要讲述如何部署Standalone 和 spark on yarn

Standalone模式

        在Standalone中,主要分为master与worker,master主要负责资源调度与作业监控,worker负责进行作业,从2.0开始只使用基于netty的RPC通信。

1、如何配置Standalone

1.1 进入 ${SPARK_HOME}/conf 目录,添加如下信息

JAVA_HOME=/usr/java/jdk1.8.0_45  #JDK路径
SPARK_MASTER_HOST=hadoop001      #Master的IP地址,默认的端口为7077
SPARK_WORKER_CORES=4             #节点中允许spark程序使用的最大核数(默认为所有核)
SPARK_WORKER_MEMORY=2g           #节点中允许spark程序使用的最大内存(默认为1G),提交spark任务时可以通过设置属性 spark.executor.memory 指定申请需要的内存。

1.2 在slaves中添加集群节点IP。

        注意(在Standalone下,每个节点的目录信息应该保持一致)

1.3 启动master进程,./sbin/start-master.sh

[root@hadoop001 spark]# ./sbin/start-master.sh
starting org.apache.spark.deploy.master.Master, logging to /opt/software/spark/logs/spark-hadoop001-org.apache.spark.deploy.master.Master-1-hadoop001.out

检查日志是否报错,没报错的就可以到web页面看看,默认端口为8080,IP为master的IP。


1.3启动worker
    ./sbin/start-slave.sh <master-spark-URL>
    

[root@hadoop001 spark]# ./sbin/start-slave.sh spark://hadoop001:7077
starting org.apache.spark.deploy.worker.Worker, logging to /opt/software/spark/logs/spark-hadoop001-org.apache.spark.deploy.worker.Worker-1-hadoop001.out
检查日志查看是否有报错,然后在去web页面看看


成功将worker添加至集群。

spark on yarn

1、配置spark on yarn
1.1、确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录(可以在系统环境变量 或者 spark-env.sh 中配置)。这些配置用于写入HDFS并连接到YARN ResourceManager。
1.2、启动yarn 和 hdfs。
1.3、在一个yarn集群中启动程序
$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]
For example
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    lib/spark-examples*.jar \
    10


2、spark on yarn有2种部署模式,分别是 client 和 cluster,通过参数 --deploy -mode指定。

在cluster模式中,spark driver 会运行在AM中,它是被yarn管理的,当初始化成功后 客户端就能分离。在client模式中,driver运行在客户端中,AM只负责向yarn申请资源。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值